Scraper adresses emails par établissement d'une liste de sociétés

Leftside · Octobre 9, 2018, 1:32

Hello la communauté,

Je cherche à récupérer les adresses emails par établissement d’une centaine de sociétés françaises dont j’ai le nom et/ou le SIREN. Cependant je ne cherche que les emails des établissement situés dans certaines villes de France (10 villes en tout).

J’ai trouvé le site societeinfo qui semble contenir mes infos, mais le pricing de leur API est vraiment trop élevé - par ailleurs j’ai besoin d’automatiser la requête pour récupérer tous les emails d’un coup (je précise que je ne code quasiment pas donc je ne peux me créer un bot custom).

Alternativement, je pensais scraper les sites des établissements en question, mais alors mon problème est double :
1- comment générer/récupérer les URL des sites pour chaque établissement à partir de cette liste de noms d’enteprises ?
2- une fois cette liste d’URL générée, comment récupérer les emails associés ?

Pour 1/ je pensais utiliser importxml dans Google Sheet pour générer une URL à partir du nom de la société, en suivant le tuto de @VivianSolide. Mais désormais importxml ne fonctionne plus avec google search…

Pour 2/, j’ai vu qu’il existe TheHarvester mais ne suis pas sûr de comprendre comment l’utiliser.

Des idées sur ces 2 points bloquants ?

Left’

camille · Octobre 9, 2018, 2:36

Tu peux utiliser blockspring pour récupérer URL à partir du nom de l’entreprise https://open.blockspring.com/lists/browse/enr01CJQ1MD3FCZC0HXN9M3W8CQZC

Puis après, récupérer les emails avec hunter, ou un outil de scraping gratuit.

Sinon, tu peux contacter @aonnen (fondateur de societeinfo), il pourra peut-être t’apporter une solution personnalisée.

Leftside · Octobre 9, 2018, 6:19

Merci @camille pour ta réponse !

Je viens d’arriver à me débrouiller à récupérer les URL de mes entreprises en utilisant importxml + Bing dans Google sheet… qui est illimité contrairement à Blockspring

//////
si ça intéresse quelqu’un, voici la marche à suivre pour scraper la 1e URL des résultats d’une recherche bing.fr:

Cellule A1 = nom de la boîte cible
ex: « boiron »

Cellule A2: entrer Bing

Cellule A3: entrer =A2&A1
ex: boiron - Recherche

Cellule A4: entrer la formule =importxml(A3;« //*[@id=‹ b_results ›]/li[1]/h2/a/@href »)

=>résultat après chargement en A4 : https://www.boiron.fr/

NB: si vous voulez aussi récupérer la 2nde URL, il faut répéter la formule d’A4 en A5, en changeant simplement la numérotation du param « li »: =importxml(A3;« //*[@id=‹ b_results ›]/li[2]/h2/a/@href ») et ainsi de suite…
//////

@camille si tu as un outil de scraping à me recommander pour crawler le site entier pour l’étape 2 je suis preneur !

camille · Octobre 10, 2018, 9:23

Pas une bonne solution de crawler le site entier, car tu va avoir beaucoup d’email déchet.

Je te conseil Scrapebox, pour le scraping.

Romain11 · Octobre 10, 2018, 9:38

Hello @Leftside ,

Vraiment pas mal ta technique !

Par contre le problème avec la fonction importxml de google sheet c’est qu’elle n’est pas très fiable. Généralement, au bout d’un certain nombre de requêtes on obtiendra le résultat #N/A. Il faut alors figer les résultats précédents (copier/coller, ne garder que les valeurs), puis reprendre les requêtes… Assez chronophage si tu as beaucoup de NDD à trouver.

Une autre technique que tu peux tenter c’est d’utiliser l’API gratuite de Clearbit (après l’avoir testé, c’est surtout adapté pour des grosses sociétés à l’international, c’est donc peu pertinent pour des PME en France par exemple)

Tu peux trouver des infos sur cette technique en consultant les liens suivants :

Leftside · Octobre 15, 2018, 3:12

Merci @camille et @Romain11 pour vos suggestions!

l’API Clearbit renvoit effectivement des NDD anglo-saxons.

Je m’en suis tiré en récupérant les contacts LinkedIn par entreprise, puis en ajoutant la couche Hunter pour récupérer l’email et enfin en scrapant Bing pour filtrer les emails selon la zone géographique du contact.

ClementAubry · Octobre 21, 2019, 8:01

Hello @Leftside,

Petite question : pourquoi scraper Bing plutôt que google ? Moins de limitations ? Est-ce que les résultats sont assez fiables ?

Merci !

Emmanuelle_P_Paris · Octobre 21, 2019, 3:27

Hate de voir la réponse du pourquoi bing plutôt que Google

ClementAubry · Octobre 22, 2019, 3:47

@Emmanuelle_P_Paris En discutant avec un collègue je pense avoir la réponse : Bing dispose d’une API mise à disposition !

Emmanuelle_P_Paris · Octobre 22, 2019, 4:13

Merci pour cette info. Je vais essayer bing excellente soirée

RenaudLT · Avril 24, 2020, 2:04

hello @ClementAubry j’espére que tu vas bien
N’étant pas informaticien, quel est le niveau de complexité de mise en place ?
J’ai env 30.000 sociétés à enrichir et m’interroge sur le meilleur moyen efficacité/cout : PhantomB, l’API dont tu me parles confier la mission sur 5€ ou équivalent…
Une idée ?
Merci encore

ClementAubry · Avril 24, 2020, 2:57

Tu peux commencer par poster dans la rubrique « Jobs » du forum pour avoir des retours sur la complexité et le coût du projet, en détaillant tes besoins