Posez vos questions à un expert du scraping

etal · Février 20, 2024, 10:15

Même réponse que pour l’Apec.

Ludo746926 · Février 21, 2024, 8:38

Salut, tu arriverais à scrapper des books en ligne, du style ça ?
https://datas.afim.asso.fr/guide_2023/

gremy · Février 21, 2024, 2:19

Que conseillerais tu pour obtenir les coordonnées completes des CSE france ?
Type http://m.annuaire-comite-entreprise.com/

Popek · Février 21, 2024, 2:48

Moi c’est pas une question mais je trouve ça juste cool que tu proposes d’aider comme ça ! Voila voila haha

Sonic · Février 21, 2024, 3:06

pareil que Popek, je voulais te troll en te demandant des conseils pour scraper le salon de l’érotisme. Mais en vrai c’est smart ce que tu fais

Motorcycle24 · Février 21, 2024, 3:10

Du coup question totalment out, mais d’ou viennent toutes tes connaissances ?

kevinclt · Février 21, 2024, 3:28

Itérer sur les départements, scraper chaque page qui sort (par département) avec pagination.
Octoparse peut faire cela.

Popek · Février 21, 2024, 3:56

Haha j’allais troll aussi mais au final jtrouve ça tellement bienveillant que jme suis arrêté tout seul

etal · Février 21, 2024, 4:55

Que veux-tu scraper précisément dedans ?

etal · Février 21, 2024, 4:58

Ah merci ça m’intéresse comme source ça. Je vous mettrai le fichier entier quand j’aurai fini ma campagne, ping moi dans 15j si pas de nouvelles stp

etal · Février 21, 2024, 4:59

Plus de 2 ans à ne faire que ça du tiers de mon temps de travail environ

gremy · Février 21, 2024, 6:26

Tu geres !

Ludo746926 · Février 21, 2024, 7:02

Le nom des prestas (à partir de la page 366).
Si tu as des tips je suis preneur

etal · Février 21, 2024, 8:05

Un PDF c’est très souvent un fichier contenant du texte brut avec des instructions de mise en forme. Ouvre ton PDF avec un éditeur de texte et cherche la première occurrence de donnée en CTRL+F. Tu vas normalement pouvoir identifier à l’oeil des patterns récurrents de mise en forme de chaque entrée qui vont te permettre de poser des délimiteurs entre chaque champ que tu veux récupérer. Ensuite il suffit de demander à ChatGPT de te faire un script.

BaptisteP · Février 23, 2024, 12:20

Hello très intéressé aussi par le fichier complet, j’essayais en vain de le scrapper entièrement avec octoparse (je suis un noob).

(Je parle du site avec tous les CSE)

Thomas_Lucyfer · Février 23, 2024, 8:01

Je parie que tu es incapable de scrap le ecom de Hermès. Bonne chance

Scalon · Février 23, 2024, 9:34

Ca ne m’a pas l’air très compliqué, en bidouillant les URL tu arrives à des listes de produit en format JSON, manque plus qu’un proxy pour automatiser ca et le tour est joué
https://bck.hermes.com/products?urlParams=fh_view_size%3D40%26country%3Dca%26fh_location%3D--/categories<{bijouterieor}%26fh_refview%3Dlister/&locale=fr_fr&category=BIJOUTERIEOR&sort=relevance&pagesize=48&available_online=false

etal · Février 23, 2024, 9:59

Je n’ai pas regardé mais il n’y a aucun sujet sur les trucs qui utilisent Datadome, du behavorial captcha ou Cloudflare. Ça se bypasse très bien sans payer des fortunes.

Alexia2 · Février 23, 2024, 12:08

Bonjour Etal , justement j’ai un gros problème de scraping . Je souhaite scraper le site annuaire des Relais et Châteaux . J’ai beau essyer tous les logiciels que je connais (phatombuster avec Google maps, scrap.io, etc) mais c’est compliqué car cela ne me ramène pas toutes les infos ou alors il faut que je fasse par ville :(. Tu aurais une solution ? Merci pour ta réponse

Morph · Février 23, 2024, 12:44

C’est basé sur algolia.
En prenant le résultat de la requête ajax, on a 310 résultats avec tous les détails il me semble.