Scraping aef.cci.fr

Hello des gens ici ont déjà scrap ce site ? aef.cci.fr

j’ai essayé avec automa et je me fais bloquer au bout d’un moment, meme en metant de gros délais.

pas sur que grand monde ait scrapé ce site, les annuaires des CCI ne sont pas des plus fiables ni des plus à jour

Déja scrapé par le passé oui, sans délai et sans proxy de mémoire.

Mais en Python, et je crois qu’il fallait juste changer le referer des requêtes par un truc du style Liste des entreprises - Annuaire des Entreprises de France puis itérer sur les SIRETS avec ce lien
https://www.aef.cci.fr/rechercheMulticritere/listeEntreprises/ficheEntreprise?siret=49354939800029.

De cette manière on bypass le message « La consultation des fiches est interdite en accès direct. » :mage:

Ca m’intéresse aussi. La BDD n’est pas des plus à jour mais elle reste pertinente à mes yeux !