Posez vos questions à un expert du scraping

Même réponse que pour l’Apec.

Salut, tu arriverais à scrapper des books en ligne, du style ça ?
https://datas.afim.asso.fr/guide_2023/

Que conseillerais tu pour obtenir les coordonnées completes des CSE france ?
Type http://m.annuaire-comite-entreprise.com/

1 « J'aime »

Moi c’est pas une question mais je trouve ça juste cool que tu proposes d’aider comme ça ! Voila voila haha

2 « J'aime »

pareil que Popek, je voulais te troll en te demandant des conseils pour scraper le salon de l’érotisme. Mais en vrai c’est smart ce que tu fais

7 « J'aime »

Du coup question totalment out, mais d’ou viennent toutes tes connaissances ?

1 « J'aime »

Itérer sur les départements, scraper chaque page qui sort (par département) avec pagination.
Octoparse peut faire cela.

Haha j’allais troll aussi mais au final jtrouve ça tellement bienveillant que jme suis arrêté tout seul

2 « J'aime »

Que veux-tu scraper précisément dedans ?

Ah merci ça m’intéresse comme source ça. Je vous mettrai le fichier entier quand j’aurai fini ma campagne, ping moi dans 15j si pas de nouvelles stp

2 « J'aime »

Plus de 2 ans à ne faire que ça du tiers de mon temps de travail environ

3 « J'aime »

Tu geres !

Le nom des prestas (à partir de la page 366).
Si tu as des tips je suis preneur :slight_smile:

Un PDF c’est très souvent un fichier contenant du texte brut avec des instructions de mise en forme. Ouvre ton PDF avec un éditeur de texte et cherche la première occurrence de donnée en CTRL+F. Tu vas normalement pouvoir identifier à l’oeil des patterns récurrents de mise en forme de chaque entrée qui vont te permettre de poser des délimiteurs entre chaque champ que tu veux récupérer. Ensuite il suffit de demander à ChatGPT de te faire un script.

1 « J'aime »

Hello très intéressé aussi par le fichier complet, j’essayais en vain de le scrapper entièrement avec octoparse (je suis un noob).

(Je parle du site avec tous les CSE)

Je parie que tu es incapable de scrap le ecom de Hermès. Bonne chance

2 « J'aime »

Ca ne m’a pas l’air très compliqué, en bidouillant les URL tu arrives à des listes de produit en format JSON, manque plus qu’un proxy pour automatiser ca et le tour est joué :slight_smile:
https://bck.hermes.com/products?urlParams=fh_view_size%3D40%26country%3Dca%26fh_location%3D--/categories<{bijouterieor}%26fh_refview%3Dlister/&locale=fr_fr&category=BIJOUTERIEOR&sort=relevance&pagesize=48&available_online=false

2 « J'aime »

Je n’ai pas regardé mais il n’y a aucun sujet sur les trucs qui utilisent Datadome, du behavorial captcha ou Cloudflare. Ça se bypasse très bien sans payer des fortunes.

1 « J'aime »

Bonjour Etal , justement j’ai un gros problème de scraping . Je souhaite scraper le site annuaire des Relais et Châteaux . J’ai beau essyer tous les logiciels que je connais (phatombuster avec Google maps, scrap.io, etc) mais c’est compliqué car cela ne me ramène pas toutes les infos ou alors il faut que je fasse par ville :(. Tu aurais une solution ? Merci pour ta réponse :slight_smile:

C’est basé sur algolia.
En prenant le résultat de la requête ajax, on a 310 résultats avec tous les détails il me semble.

2 « J'aime »