J’espère que vous allez bien et merci à tous pour ce forum aussi actif
J’ai un petit problème : je scrap des sites avec Octoparse depuis pas mal de temps déjà et je n’ai jamais réellement été « bloqué » par un site (ou quand ça arrivait je passais par Dataminer en mode bourrin).
Sauf qu’aujourd’hui, je suis tombé sur cet annuaire de la Fédération française du bâtiment :
Et là, pas moyen de faire quoi que ce soit… Octoparse ne m’est d’aucune utilité car :
Je n’ai pas un accès à la liste complète des entreprises
La multitude de filtres (notamment par région) rends le process trop long
Est-ce que quelqu’un a une idée de comment scraper ce site ? Ou qui arriverait à me partager une page avec toutes les entreprises que je puisse moi même scraper ?
le site m’a l’air assez compliqué à scraper effectivement, sauf à simuler un navigateur, on peut en discuter en MP je peux te proposer de le faire, sinon il existe d’autres annuaires comme https://www.artisans-du-batiment.com j’ai déjà les données, là aussi on peut en discuter
pareil que djousto,
on offre ce type de service ( on a 2 apps : rocketlead et siretinfo)
ma société scrape les sites pour 50 /l’unité des nouveaux site et 30 quand c’est déja scrapé, on en fait environ 200 / mois , on a un salarié qui fait que ça
On pas fait le ffbatiment donc ca m’intéresse toujours de le rentrer
pour artisan du bâtiment on la en stock avec le script en maj, on passe par le sitemap sur celui ci de mémoire. Si ce que Djousto te propose ne t’interesse pas n’hesites pas me contacter.
Comme dit plus haut, la méthode simple, c’est de simuler un navigateur et de simuler les clicks sur chaque filtre (ça va être très long). Tu pourrais également passer par l’url, mais ce n’est pas forcément mieux de ce que je vois.
En tout cas, même en tant qu’utilisateur, l’UX est juste horrible, car tu dois remplir tous les filtres pour au final que l’on te retourne : « rien n’a été trouvé »
on en discute avec Elliot, on va voir ce qu’on peut faire, après première analyse, personnellement ce que je ferais c’est construire une liste d’urls de recherche comme "https://www.outils.ffbatiment.fr/federation-francaise-du-batiment/laffb/annuaire.html?Typ=1&Rs=&SecteurActivite=B%c3%a2timent&Dep=01&Acti=704&Activite=Agencement&Comm=0 "
on peut facilement générer une liste d’urls pour chaque activité et département, mais ensuite la recherche des résultats est un gros code immonde javascript qui va construire des paramètres et cookies particuliers, et refaire une requete GET assez complexe, alors certes on pourrait faire de la rétro-ingénierie mais pas sur que l’enjeu en vaille la peine, du coup pour chaque url il vaut mieux lancer un navigateur type selenium, cliquer sur recherche, gérer la pagination, et récupérer les données
je sais pas si le site a été fait exprès pour contrer le scraping en tout cas c’est réussi, mais je pencherais plutot pour un site fait avec les pieds et sous-traité quelque part en asie