besoin d'aide scrapper avec zenno poster

Salut la communauté,

Je débute dans le scrapping et je suis depuis quelques jours sur zennoposter et le moins que l’on puisse dire c’est que j’arrive pas à grand chose… J’ai vu que le sujet a déjà été traité mais j’aurais besoinde votre aide/retour d’expérience

Le projet (pas super original):
scrapper le contenu d’un site anglais (hn+ paragraph sans le footer et les autres trucs dont je me fous)/le mettre dans deepl/revoir manuellement le texte/poster sur mon cms webflow

Difficultés:

1)Je n’arrive pas à scrapper uniquement le texte. Toutes les pages sont construites de la même manière. Le contenu qui m’intéresse est enfermé dans une div class=« single-article-content » mais en utilisant les regex , je choppe les balises et ça me donne bien trop de déchets. une idée de ce que je fais mal?

  1. J’ai l’impression qu’avec Zenno, on ne peut que retranscrire son texte dans un fichier .txt. Dans l’idéal, je voudrais garder la structure (Hn,p, images…) et la mettre dans un google doc afin de pouvoir la garder quand je la mets dans deepl. J’imagine que c’est possible mais comment?

  2. En parlant de deepl, il me faut l’api j’imagine pour la faire tourner directement avec zenno poster?
    J’ai 150 textes d’environ 3000 mots à traduire soit environ 500k mots. Je sais pas trop ce que ça représente chez deepl la notion de bloc… 1 000 000 blocs pour 20€ ok c’est cool mais ça fait combien de « blocs » un mot?

4)J’envisage aussi de mettre un effet miroir et de rogner aléatoirement les images mais j’ai pas encore essayer. Je pense que ça va être relou de les sélectionner et de les remettre à leur place dans le google doc alors je suis pas contre l’idée de le faire manuellement

Merci pour votre aide :slight_smile:

Ce sujet a été automatiquement fermé après 365 jours. Aucune réponse n’est permise dorénavant.