Récupérer le nom de domaine à partir du nom d'entreprise

Bonjour la communauté,

J’ai un fichier obtenu via Dux-Soup contenant des milliers de prénom-nom-nom_entreprise-poste-etc… Pour pouvoir exploiter ce fichier, je compte passer par hunter.io pour récuperer les adresses email.

Probleme : Pour acquérir les adresses email grace à hunter.io j ai besoin des nom de domaines des entreprises.
Le faire à la main me prendrais des jours.

Avez vous une solution ?

1 « J'aime »

@ScrapingExpert une idée ?

Avec hunter (bulk finder) tu peux utiliser le nom de l’entreprise aussi, pas besoin de l’url. Après tu auras toujours un peu de perte (cc @FGrante).

1 « J'aime »

Salut @Camille merci ! J’ai essayé en remplacant le nom de domaine par le nom de l’entreprise mais le taux de sureté (que l adresse email généré est la bonne quand utilisé sur google sheet via l extension) est nettement plus bas.

ca reste une alternative en cas de non solution ! merci

Le problème c’est surtout dux-soup, ce n’est pas le bon outil pour ça. C’est très bien pour l’automation, mais pas pour la récupération d’email.

Utilise plutot Snov ou Skrapp. Ca va te récupérer, prénom, nom, url entreprise, puis te recomposer l’email, avec check smtp. All in one.

Super merci beaucoup, je suis déja sur skrapp c est top mais restreint niveau budget, j utilise la verison gratuite sur diffrent comptes. Je ne connaissant pas Snov, je vais regarder !

Sinon j’ai presque trouver la solution a mon probleme ! : Phantom Buster a developper a outil répondant parfaitement a mon besoin : tu telecharges un google sheet avec des nom d’entreprise, ca te sort les nom de domaine. Seulement, il y a bcp de déchet (surtout sur PME). @Camille si tu as d’autres tips genre skrapp t’es le bienvenue :slight_smile:

Hello @Paul_Rvl,

Trouver le nom de domaine à partir du nom d’entreprise, cela sort clairement de mes compétences :frowning:

Mais en réalité je pense que c’est une problématique difficilement solvable, car tout ici est question de « matching », et le taux de false positive resté assez significatif.

Pour ce type de problème j’aurais tendance à te dire d’automatiser la recherche des noms d’entreprises sur Google SERP, et de choper le 1er lien qui ressort pour identifier le nom de domaine du site associé à l’entreprise, mais il faut éliminer tous les sites annuaires, ou type infogreffe, societe dot com, 118 218 etc.

Le vrai problème derrière tout ça comme je le disais, c’est le matching. La cause principale étant que chaque source de données possède sa propre nomenclature, sa propre manière de nommer les entités, et ici donc les entreprises.

Là où sur un site une entreprise sera nommée A.B.C.D.E , sur un autre site tu auras l’acronyme décomposé, et sur d’autres sites des noms raccourcis ou à rallonge :confused:

Hello. J’avais eu le soucis il y a qq temps, j’avais dev une app qui utilisait l’API Clearbit : https://blog.clearbit.com/company-name-to-domain-api/ (50 000 gratuit)

Mon process :

  1. Récup de la base SIREN
  2. Petit algo maison pour avoir plusieurs noms associés à une entreprise à partir de cette base (car sinon trop peu étaient trouvés par Clearbit)
  3. Utilisation de l’API Clearbit me permettant de récupérer le nom de domaine d’une entreprise
  4. Vérif manuelle pour supprimer/modifier les erreurs
  5. API Hunter pour récupérer les emails

Ca fonctionnait plutôt bien. (désolé l’app en question n’est plus en ligne…).

1 « J'aime »

Super intéressant ! Comment tu avais fais pour obtenir 50 000 appels API Clearbit gratuits?

Rien de spécial : « We are releasing this for free, up to 50k requests a month », c leur pricing pr l’instant

C’est toujours d’actualité?

Les mecs abusent, quand j’avais contacté le support commercial le type m’avait dit que je ne pouvais avoir que 250 requêtes , et qu’ils coupaient l’accès au bout de deux semaines, suite à quoi ça serait $12 000 l’année…

Je ne sais pas récemment, ca a peut-être changé… Quand je l’utilisait c’était encore en beta donc j’ai peut-être eu de la chance.

https://autocomplete.clearbit.com/v1/companies/suggest?query=facebook :wink: (kudos @cebri)

https://blog.clearbit.com/company-autocomplete-api/

1 « J'aime »

Oui, je pense qu’ils utilisent l’api de bing, en récupérant le premier résultat avec le nom de l’entreprise en requête.

1 « J'aime »

cf Scraper adresses emails par établissement d'une liste de sociétés

Concernant l’API gratuite de Clearbit : après l’avoir testé, c’est surtout adapté pour des grosses sociétés à l’international, c’est donc peu pertinent pour des PME en France par exemple…

1 « J'aime »

Si ce sont des PME françaises, je pense que le mieux c’est d’utiliser : societeinfo

1 « J'aime »

@Paul_Rvl @arnaudk
Passer par du crowdsourcing pour faire une recherche manuelle du site web/nom domaine à partir du nom de l’entreprise peut être une bonne solution. De même pour faire les verif manuelles sur un gros fichiers.
une autre possibilité peut etre de passer par 1) trouver le SIREN à partir du nom 2) Extraire les infos (site web/nom domaine) à partir du SIREN

Vous pouvez aller voir les application de Wirk.io (ex-foule factory) qui font ça.

Un truc m’échappe car j’ai récupéré en open data 54000 sièges des entreprises actives avec sirene etc… directement depuis le site Siren
Après quel service puis-je utiliser pour aller enrichir avec les domaines afin d’aller ensuite chercher les contacts/mails
ça tient la route ce process ?

A partir du SIREN, il est possible d’utiliser l’API de societeinfo pour enrichir les données.

Leurs tarifs ont quand même fortement augmenté ces derniers mois.
Et d’après ce que j’ai compris, l’enrichissement coute plus cher que l’acquisition.
Comme nous avons déjà le NAF et l’effectif, le besoin d’enrichissement serait avec le CA
Ensuite ce sont les interlocuteurs qu’il faut trouver.