Je cherche à récupérer les adresses emails par établissement d’une centaine de sociétés françaises dont j’ai le nom et/ou le SIREN. Cependant je ne cherche que les emails des établissement situés dans certaines villes de France (10 villes en tout).
J’ai trouvé le site societeinfo qui semble contenir mes infos, mais le pricing de leur API est vraiment trop élevé - par ailleurs j’ai besoin d’automatiser la requête pour récupérer tous les emails d’un coup (je précise que je ne code quasiment pas donc je ne peux me créer un bot custom).
Alternativement, je pensais scraper les sites des établissements en question, mais alors mon problème est double :
1- comment générer/récupérer les URL des sites pour chaque établissement à partir de cette liste de noms d’enteprises ?
2- une fois cette liste d’URL générée, comment récupérer les emails associés ?
Pour 1/ je pensais utiliser importxml dans Google Sheet pour générer une URL à partir du nom de la société, en suivant le tuto de @VivianSolide. Mais désormais importxml ne fonctionne plus avec google search…
Pour 2/, j’ai vu qu’il existe TheHarvester mais ne suis pas sûr de comprendre comment l’utiliser.
Je viens d’arriver à me débrouiller à récupérer les URL de mes entreprises en utilisant importxml + Bing dans Google sheet… qui est illimité contrairement à Blockspring
//////
si ça intéresse quelqu’un, voici la marche à suivre pour scraper la 1e URL des résultats d’une recherche bing.fr:
NB: si vous voulez aussi récupérer la 2nde URL, il faut répéter la formule d’A4 en A5, en changeant simplement la numérotation du param « li »: =importxml(A3;« //*[@id=‹ b_results ›]/li[2]/h2/a/@href ») et ainsi de suite…
//////
@cona si tu as un outil de scraping à me recommander pour crawler le site entier pour l’étape 2 je suis preneur !
Par contre le problème avec la fonction importxml de google sheet c’est qu’elle n’est pas très fiable. Généralement, au bout d’un certain nombre de requêtes on obtiendra le résultat #N/A. Il faut alors figer les résultats précédents (copier/coller, ne garder que les valeurs), puis reprendre les requêtes… Assez chronophage si tu as beaucoup de NDD à trouver.
Une autre technique que tu peux tenter c’est d’utiliser l’API gratuite de Clearbit (après l’avoir testé, c’est surtout adapté pour des grosses sociétés à l’international, c’est donc peu pertinent pour des PME en France par exemple)
Tu peux trouver des infos sur cette technique en consultant les liens suivants :
l’API Clearbit renvoit effectivement des NDD anglo-saxons.
Je m’en suis tiré en récupérant les contacts LinkedIn par entreprise, puis en ajoutant la couche Hunter pour récupérer l’email et enfin en scrapant Bing pour filtrer les emails selon la zone géographique du contact.
hello @ClementAubry j’espére que tu vas bien
N’étant pas informaticien, quel est le niveau de complexité de mise en place ?
J’ai env 30.000 sociétés à enrichir et m’interroge sur le meilleur moyen efficacité/cout : PhantomB, l’API dont tu me parles confier la mission sur 5€ ou équivalent…
Une idée ?
Merci encore
Tu peux commencer par poster dans la rubrique « Jobs » du forum pour avoir des retours sur la complexité et le coût du projet, en détaillant tes besoins