Salut,
J’ai des difficultés à extraire les emails de ce site
http://www.avocatparis.org/annuaire
Quelqu’un aurait une idée pour m"aider
Salut,
J’ai des difficultés à extraire les emails de ce site
http://www.avocatparis.org/annuaire
Quelqu’un aurait une idée pour m"aider
Salut,
J’ai déjà eu à faire à cette base pour un client, et la tâche fût vraiment ardue.
Pour plusieurs raisons:
Tout ça à gérer via un bot qui prend en compte le JS.
Et pour info, il n’y a pas moins que 34 900 emails…
Hello @sporret,
j’ai réalisé l’extraction depuis ce site il y a quelque mois.
J’ai toujours les données si tu veux.
email / tel / expertises etc…
@+
Petite astuce que j’avais mis en place :
Comme tu n’as accès qu’à 300 résultats par requêtes, l’idée était de faire en sorte que les requêtes ne retournent jamais plus de 300 résultats.
Dans l’idée, tu pars de l’url suivante : http://www.avocatsparis.org/Eannuaire/CMSListeRecherche.aspx?nom=[a-z]&Pre=&ChReNom=1&Adr=&Arr=[1-20]&mail=True&Site=False&Toque=&etranger=False
Et tu utilises les indices suivants :
Tu peux rajouter des paramètres pour réduire encore le nombre de résultats pas requêtes (en s’assurant de bien balayer l’ensemble des résultats possibles).
Amuse toi bien
Salut :), j’ai essayé de récupérer cette base aussi il y à un mois (echec). Je suis super interessé si tu veux bien. Comment tu as procédé pour la récupérer? merci
Procédure indiquée ci-dessus, pour 34 900 emails
Yes avec plaisir
Un simple script avec http://webscraper.io (extension chrome) et l’explication que j’ai donné plus haut (qui est en fait un doublon de celle déjà donnée par @scrapingexpert). A toi de jouer