Scraping email Pages Jaunes 2020

Bonjour,

Savez vous si il existe une solution pour recuperer les emails dans les pages jaunes ?

Merci !

Il y a ce projet : https://github.com/wblondel/PagesJaunes-Scraper mais je ne l’ai pas essayé.
Après je ne pense pas que vous pourrez récupérer les emails, car pour moi ils sont cachés.

Je vais être un peu sec mais je commence à saturer (désolé tu payes pour les autres :sweat_smile:) :

  • Le mot scraping ne prend qu’un P.
  • Tu peux, par ex, récupérer l’URL du site de l’entreprise, puis checker si y’a un email présent sur le site via du scraping ou hunter.io (Warning : Chez PJ ils utilisent Datadome ce qui complique la chose ;))
3 J'aimes

shame

4 J'aimes

Après, cette erreur permet au forum d’être bien positionné sur la requête « Scrapping » , du coup, on est sur un GH de qualité … :sweat_smile:

6 J'aimes

Google ne fait pas de correction auto sur les keywords du coup ?

Pas d’après mon test, même s’il suggère la correction du terme. Après @camillebesse peut peut-être nous dire si la page concernée (Apprendre le scrapping en 2018) génère tant de trafic SEO que ça :wink:

1 J'aime

Oui pas trop mal, et puis même Korben fait l’erreur :

Sans rancune @Sebmonta ? :wink:

2 J'aimes

Hello !

J’ai fait une vidéo avec l’outil que j’utilise (qui est gratuit dans une certaine limite) pour scraper les pages jaunes (email inclus) ! :slightly_smiling_face:

2 J'aimes

Hello ! :smile:

Le tool présenté par @Xavier_Loup c’est Yellow leads extractor (essai gratuit possible), mais tu auras très peu de mail, mais ça peut servir comme base.

Il y a aussi Iqualif qui a été mentionné par un membre du forum il y a quelques mois (essai gratuit possible)

il permet de récupérer le SIRET / SIREN et d’autres infos car il « merge » ça avec d’autres annuaires type 118 712 (si mes souvenirs sont bons) , le tool fonctionne mais il est un peu capricieux.

De manière générale nous préférons scraper (l’orthographe est correct ? :grin:) la data de Google Maps pour en faire une base, car elle est plus quali’. Voici le tool : Google maps email extractor (vidéo + download sur la page)

Pour des petits besoins ça devrait faire l’affaire :wink:, en espérant que ca puisse aider.

2 J'aimes

@Yesouicom @Xavier_Loup Mais les emails récoltés par ces tools ils viennent d’ou ? Sachant que sur PJ ce sont des formulaires et non des emails en clair.

1 J'aime

Seulement dès qu’il y a un site internet référencé à minima (comme tu l’as mentionné dans ton post @camillebesse ), le volume de mail dispo’ est donc très faible. Il est plus intéressant de procéder différemment si l’objectif est uniquement l’obtention de mail :smile:

2 J'aimes

Le tool va récupérer les emails sur le site web de l’entreprise quand il est mentionné d’après ce que je vois.

3 J'aimes

Pour le le faire « soi-même » :

  1. Captaindata pour récupérer les websites (bypass datadome)
  2. Hunter.io pour récupérer les emails à partir des websites.
2 J'aimes

Effectivement, PJ a ajouté une nouvelle protection du coup je sais pas si on peut encore récupérer les mails, mon tuto doit être obsolète. Avant si l’email était affiché comme ci-dessous on pouvait les scraper directement avec YPSpider.

Ta capture d’écran est d’actualité mais ce n’est pas parce-que il y a écrit « email » que le mail est disponible. Si tu cliques sur « email », ça ouvre une modal avec un formulaire. Ton tuto n’est pas obsolète, c’est juste que Yellow lead extractor ne récupère pas les emails sur les pages jaunes mais sur le site web de l’entreprise qui a été renseigné.

3 J'aimes

Tout va bien, j’utiliserai le terme ‹ gratter › la prochaine fois :slight_smile:

1 J'aime

Grater avec un T ! :rofl:

8 J'aimes

Bonjour,

Je suis l’auteur de projet, que je viens d’ailleurs de réécrire :slight_smile:

Mon outil ne sert pas à scraper les informations des PagesJaunes, il sert à télécharger les annuaires (ceux qu’on recevait au format papier) au format numérique. Ces annuaires sont disponibles ici https://mesannuaires.pagesjaunes.fr/

Cordialement
William Blondel