Scraper adresses emails par établissement d'une liste de sociétés


#1

Hello la communauté,

Je cherche à récupérer les adresses emails par établissement d’une centaine de sociétés françaises dont j’ai le nom et/ou le SIREN. Cependant je ne cherche que les emails des établissement situés dans certaines villes de France (10 villes en tout).

J’ai trouvé le site societeinfo.com qui semble contenir mes infos, mais le pricing de leur API est vraiment trop élevé - par ailleurs j’ai besoin d’automatiser la requête pour récupérer tous les emails d’un coup (je précise que je ne code quasiment pas donc je ne peux me créer un bot custom).

Alternativement, je pensais scraper les sites des établissements en question, mais alors mon problème est double :
1- comment générer/récupérer les URL des sites pour chaque établissement à partir de cette liste de noms d’enteprises ?
2- une fois cette liste d’URL générée, comment récupérer les emails associés ?

Pour 1/ je pensais utiliser importxml dans Google Sheet pour générer une URL à partir du nom de la société, en suivant le tuto de @VivianSolide. Mais désormais importxml ne fonctionne plus avec google search…

Pour 2/, j’ai vu qu’il existe TheHarvester mais ne suis pas sûr de comprendre comment l’utiliser.

Des idées sur ces 2 points bloquants ?

Left’


#2

Tu peux utiliser blockspring pour récupérer URL à partir du nom de l’entreprise https://open.blockspring.com/lists/browse/enr01CJQ1MD3FCZC0HXN9M3W8CQZC

Puis après, récupérer les emails avec hunter, ou un outil de scraping gratuit.

Sinon, tu peux contacter @aonnen (fondateur de societeinfo), il pourra peut-être t’apporter une solution personnalisée.


#3

Merci @camillebesse pour ta réponse !

Je viens d’arriver à me débrouiller à récupérer les URL de mes entreprises en utilisant importxml + Bing dans Google sheet… qui est illimité contrairement à Blockspring :rocket:

//////
si ça intéresse quelqu’un, voici la marche à suivre pour scraper la 1e URL des résultats d’une recherche bing.fr:

Cellule A1 = nom de la boîte cible
ex: “boiron”

Cellule A2: entrer https://www.bing.fr/search?q=

Cellule A3: entrer =A2&A1
ex: https://www.bing.fr/search?q=boiron

Cellule A4: entrer la formule =importxml(A3;"//*[@id=‘b_results’]/li[1]/h2/a/@href")

=>résultat après chargement en A4 : https://www.boiron.fr/

NB: si vous voulez aussi récupérer la 2nde URL, il faut répéter la formule d’A4 en A5, en changeant simplement la numérotation du param “li”: =importxml(A3;"//*[@id=‘b_results’]/li[2]/h2/a/@href") et ainsi de suite…
//////

@camillebesse si tu as un outil de scraping à me recommander pour crawler le site entier pour l’étape 2 je suis preneur !


#4

:clap:

Pas une bonne solution de crawler le site entier, car tu va avoir beaucoup d’email déchet.

Je te conseil Scrapebox, pour le scraping.


#5

Hello @Leftside ,

Vraiment pas mal ta technique !

Par contre le problème avec la fonction importxml de google sheet c’est qu’elle n’est pas très fiable. Généralement, au bout d’un certain nombre de requêtes on obtiendra le résultat #N/A. Il faut alors figer les résultats précédents (copier/coller, ne garder que les valeurs), puis reprendre les requêtes… Assez chronophage si tu as beaucoup de NDD à trouver.

Une autre technique que tu peux tenter c’est d’utiliser l’API gratuite de Clearbit (après l’avoir testé, c’est surtout adapté pour des grosses sociétés à l’international, c’est donc peu pertinent pour des PME en France par exemple)

Tu peux trouver des infos sur cette technique en consultant les liens suivants :


#6

Merci @camillebesse et @Romain11 pour vos suggestions!

l’API Clearbit renvoit effectivement des NDD anglo-saxons.

Je m’en suis tiré en récupérant les contacts LinkedIn par entreprise, puis en ajoutant la couche Hunter pour récupérer l’email et enfin en scrapant Bing pour filtrer les emails selon la zone géographique du contact.


Communauté initiée par @camillebesse avec l'aide de @Cebri@JulienD@VivianSolide@Boristchangang
Follow @growthhackingfr