Scrapper les mails d'un annuaire d'avocats

Bonjour,

J’utilise Email extractor pour aspirer les mail d’un site via url, mais il ne fonctionne pas bien.
D’une part, il ne trouve pas les mails du site, et en plus quand il les trouve, rien n’est segmenté.

Auriez vous des techniques pour scrapper es adresse mails de l’annuaire des avocats de Montpellier par exemple

http://www.avocats-montpellier.com/annuaire-des-avocats.asp ?

Hello @Squatou,

Avec cette liste d’URL, tu pourras te débrouiller, je pense :wink: :

https://docs.google.com/spreadsheets/d/11LHCRCmWIZOGeee1YCZiDEGg3jYvfEherGBqN2N-9Kg/edit?usp=sharing

Merci beaucoup Camill.

Tu penses qu’il faut que je colle la liste d’URL dans Email extractor pour qu’il me les détecte ?
Comment as tu fait pour générer cette liste ?

Je ne connais pas email extractor. Regarde la catégorie « scraping » de la toolbox

Onglet network, console chrome.

Mon meilleur conseil @squatou serait de passer un peu de temps à prendre en mains l’extension http://webscraper.io pour Chrome. Avec tu devrais en 5/10min pouvoir lancer un script qui te récupères tout. Tu récupères le résultat au format .csv (ouvrable dans Excel / Google Sheet par ex).

Si tu as besoin d’aide n’hésite pas à me mp :wink:

2 « J'aime »

Le conseil de Gabin @mnmlstrntreprnr est bon à suivre, l’extension peut rapidement se prendre en main via leurs tutos vidéos: Web Scraper Tutorials

Avec en option quelques connaissances en sélecteurs CSS et regex, tu peux faire énormément de choses avec cette extension lorsque tu n’es pas trop technique.

2 « J'aime »

J’attendais ta réponse ! J’ai vu scraping et avocats dans la même phrase :joy:

2 « J'aime »

Énorme en effet !

D’ailleurs, je m’adresse ici à toute la communauté GH et en particulier à @Camille , @cebri pour un immense merci pour avoir contribué à ce qu’est aujourd’hui ce forum, sans qui je n’aurais pu me retrouver dans un event parisien il y a deux jours pour faire une formation initiation scraping à des non-devs, en prenant justement comme exemple un site annuaire d’avocats, avec l’extension chrome web scraper…

Parenthèse terminée :joy:

5 « J'aime »

Merci à tous de toutes vos contribution. Je suis parfaitement néophyte dans le domaine et webscraper me fait l’effet d’une partie de Kamoulox en islandais. Je n’y comprend que dalle.
Mais , vu l’élan de solidarité, je vais me racler la soupière et essayer de faire un effort pour arriver à sortir les mails de cet annuaire.
Ca s’annonce tendu…
Merci à tous dans tous les cas. votre élan solidaire est vraiment cool.

1 « J'aime »

Avec plaisir. Y’a une video de l’event ?

1 « J'aime »

Cette vidéo m’a bien aidé https://www.youtube.com/watch?v=-cxNhoVufEo

1 « J'aime »

Cadeau voici les données: https://docs.google.com/spreadsheets/d/1Klf8E5SmkXo5KfWGpPt83fAmNYcA20NqPWsA5hHzNds/edit?usp=sharing

1 « J'aime »

Qui que tu sois, sache que je viens de te mettre bénéficiaire sur mon assurance vie et que je t’aime de manière subite.
Je vais tâcher d’apprendre à pécher pour ne pas attendre que tu me balances du poisson.
parce que je vais devoir me palucher tous les barreaux de France.
Amour sur toi, Scraping expert.
Et sur vous tous.

2 « J'aime »

Plaisir partagé :wink: et oui…on veut la vidéo !

Je ne pense pas qu’il y en ait une officielle =/

Petit bug: apparemment l’import sur Google Spreadsheet a viré les « 0 » du début des numéros de tel …

Oui alors, ne t’inquiète pas, ça je peux gérer.
Je vais me faire la vidéo de NMD_NOMAD pour apprendre à utiliser Web Scrapper.
Ça ne doit pas bien être si compliqué.

1 « J'aime »

Hum, pour avoir déjà fais tous les barreaux de France, je peux dores et déjà affirmer plusieurs choses, tu auras besoin au minimum:

  • d’avoir des connaissances en sélecteur XPath / CSS. Dans certains cas, XPath obligatoire car les sélecteurs doivent se baser sur le contenu texte de noeuds HTML, chose que les sélecteurs CSS ne permettent pas (CSS 2 oui, mais ca a disparu avec CSS 3 je crois). Par exemple si les données tel, fax, adresse, email, sont structurées sous forme de liste à puces via la structure HTML ul>li , et qu’aucun des noeuds « li » ne possède d’attributs (type « id » ou « class »), tu ne pourrais te baser à priori que sur leurs positions au sein du noeud parent « ul », par exemple le tel est en 3ième position, l’email en 2ième etc. Sauf que c’est impossible, sachant que n’importe quel champ peut être manquant, le tel peut se retrouver en 1ère position, l’email en 2, etc. Du coup, il faut écrire des XPaths du type //li[contains(text(), 'Tel : ')], et ensuite appliquer une regex pour extraire proprement le numéro de tel.
  • d’avoir des connaissances en regex, pour extraire uniquement la portion de la chaine de caractères qui t’intéresse
  • de maîtriser la gestion de la pagination, en sachant quel bouton et quel sélecteur choisir, à savoir que parfois on ne pourra pas se baser sur le texte du bouton page next pour le coté « uniqueness », mais sur la structure html complète de ce dernier
  • de maîtriser la philosophie d’utilisation de cette extension chrome
  • de gérer les aspects inputs / affinage par critères de recherche, car dans pas mal de cas comme pour les avocats de Paris tu seras limité à 300 avocats par critère de recherche, triés aléatoirement… d’où la nécessité de chercher par arrondissement + souvent par combinaison de 1ère et 2ième lettre du nom de famille, allant de AA à ZZ…

En gros, si tu veux faire tous les barreaux de France, y’a des chances que l’extension chrome à elle seule ne suffise pas…

Si tu as déjà fait tous les barreaux de France, et que tu as la data base qui correspond et segmentée, tu m’intéresses.
Mais de ouf.
Passons en PV

+1 I agree :slight_smile: