Scraping email Pages Jaunes 2020

Bonjour,

Savez vous si il existe une solution pour recuperer les emails dans les pages jaunes ?

Merci !

Il y a ce projet : https://github.com/wblondel/PagesJaunes-Scraper mais je ne l’ai pas essayé.
Après je ne pense pas que vous pourrez récupérer les emails, car pour moi ils sont cachés.

Je vais être un peu sec mais je commence à saturer (désolé tu payes pour les autres :sweat_smile:) :

  • Le mot scraping ne prend qu’un P.
  • Tu peux, par ex, récupérer l’URL du site de l’entreprise, puis checker si y’a un email présent sur le site via du scraping ou hunter.io (Warning : Chez PJ ils utilisent Datadome ce qui complique la chose ;))
3 J'aimes

shame

4 J'aimes

Après, cette erreur permet au forum d’être bien positionné sur la requête « Scrapping » , du coup, on est sur un GH de qualité … :sweat_smile:

7 J'aimes

Google ne fait pas de correction auto sur les keywords du coup ?

Pas d’après mon test, même s’il suggère la correction du terme. Après @camillebesse peut peut-être nous dire si la page concernée (Apprendre le scrapping en 2018) génère tant de trafic SEO que ça :wink:

1 J'aime

Oui pas trop mal, et puis même Korben fait l’erreur :

Sans rancune @Sebmonta ? :wink:

2 J'aimes

Hello !

J’ai fait une vidéo avec l’outil que j’utilise (qui est gratuit dans une certaine limite) pour scraper les pages jaunes (email inclus) ! :slightly_smiling_face:

2 J'aimes

Hello ! :smile:

Le tool présenté par @Xavier_Loup c’est Yellow leads extractor (essai gratuit possible), mais tu auras très peu de mail, mais ça peut servir comme base.

Il y a aussi Iqualif qui a été mentionné par un membre du forum il y a quelques mois (essai gratuit possible)

il permet de récupérer le SIRET / SIREN et d’autres infos car il « merge » ça avec d’autres annuaires type 118 712 (si mes souvenirs sont bons) , le tool fonctionne mais il est un peu capricieux.

De manière générale nous préférons scraper (l’orthographe est correct ? :grin:) la data de Google Maps pour en faire une base, car elle est plus quali’. Voici le tool : Google maps email extractor (vidéo + download sur la page)

Pour des petits besoins ça devrait faire l’affaire :wink:, en espérant que ca puisse aider.

2 J'aimes

@Yesouicom @Xavier_Loup Mais les emails récoltés par ces tools ils viennent d’ou ? Sachant que sur PJ ce sont des formulaires et non des emails en clair.

1 J'aime

Seulement dès qu’il y a un site internet référencé à minima (comme tu l’as mentionné dans ton post @camillebesse ), le volume de mail dispo’ est donc très faible. Il est plus intéressant de procéder différemment si l’objectif est uniquement l’obtention de mail :smile:

2 J'aimes

Le tool va récupérer les emails sur le site web de l’entreprise quand il est mentionné d’après ce que je vois.

3 J'aimes

Pour le le faire « soi-même » :

  1. Captaindata pour récupérer les websites (bypass datadome)
  2. Hunter.io pour récupérer les emails à partir des websites.
4 J'aimes

Effectivement, PJ a ajouté une nouvelle protection du coup je sais pas si on peut encore récupérer les mails, mon tuto doit être obsolète. Avant si l’email était affiché comme ci-dessous on pouvait les scraper directement avec YPSpider.

Ta capture d’écran est d’actualité mais ce n’est pas parce-que il y a écrit « email » que le mail est disponible. Si tu cliques sur « email », ça ouvre une modal avec un formulaire. Ton tuto n’est pas obsolète, c’est juste que Yellow lead extractor ne récupère pas les emails sur les pages jaunes mais sur le site web de l’entreprise qui a été renseigné.

3 J'aimes

Tout va bien, j’utiliserai le terme ‹ gratter › la prochaine fois :slight_smile:

1 J'aime

Grater avec un T ! :rofl:

10 J'aimes

Bonjour,

Je suis l’auteur de projet, que je viens d’ailleurs de réécrire :slight_smile:

Mon outil ne sert pas à scraper les informations des PagesJaunes, il sert à télécharger les annuaires (ceux qu’on recevait au format papier) au format numérique. Ces annuaires sont disponibles ici https://mesannuaires.pagesjaunes.fr/

Cordialement
William Blondel

1 J'aime

Bonjour à tous et à toutes,

Tout bon growth hacker qui se respecte devrait consulter les CGU du site internet qui l’intéresse pour vérifier quels sont les usages autorisés et ceux manifestement interdits.

Sur le site des PagesJaunes, il est indiqué:

Toute reproduction intégrale ou partielle, par quelque procédé que ce soit, faite sans le consentement préalable et écrit de Solocal est illicite et constitue une contrefaçon donnant lieu à des sanctions pénales.

Afin de respecter la vie privée des abonnés, de lutter contre le spam et la collecte illicite de données à caractère personnel, l’accès au service de pagesjaunes.fr est limité à une utilisation manuelle et tout usage de robot est interdit. Sont notamment illégales l’utilisation automatique du service aux fins de constitutions de bases de données commerciales et de prospection automatisée d’adresses email.

Conformément aux dispositions de la loi n° 98-536 du 1er juillet 1998, portant transposition dans le Code de la propriété intellectuelle de la directive 96/9/CE du 11 mars 1996, concernant la protection juridique des bases de données, Solocal est producteur de sa base de données, accessible sur le présent site, et dont elle est seule propriétaire.

En accédant au présent site, vous reconnaissez que les données le composant sont légalement protégées et, conformément aux dispositions de la loi du 1er juillet 1998 précitée, vous vous interdisez notamment d’extraire, réutiliser, stocker, reproduire, représenter ou conserver, directement ou indirectement, sur un support quelconque, par tout moyen et sous toute forme que ce soit, tout ou partie qualitativement ou quantitativement substantielle du site auquel vous accédez ainsi que d’en faire l’extraction ou la réutilisation répétée et systématique de parties qualitativement et quantitativement non substantielles lorsque ces opérations excèdent manifestement les conditions d’utilisation normale.

En vertu du respect des droits des abonnés inscrits en liste d’opposition à des opérations de prospection directe et des dispositions de l’article R10-1 du Code des Postes et Communications électroniques fixées par décret en Conseil d’Etat du 01/08/03, l’utilisation à des fins commerciales ou de diffusion dans le public de données téléchargées à partir de https://www.pagesjaunes.fr est formellement interdite, sous peine des sanctions pénales prévues par les articles 226-16 à 226-24 du Code pénal qui sanctionne notamment le délit de collecte illicite de données personnelles

Cave canem, à vos risques et périls !