Trouver Nom de Domaines et/ou Pattern Email (en masse)

Bonjour à tous,

Au travers des différentes solutions proposées sur GH.fr, je ne trouve pas mon bonheur.

Voici ce que je fait aujourd’hui (Les Questions sont en bas :smiley: )

  • J’ai un script qui scrape LinkedIn pour me constituer ma base de prospects clients. Pour cela, ce script récupère différentes infos des profils, notamment Prénom + Nom + Company -> Ces données sont enregistrées dans un fichier Excel nommé prospect.xls (Ex : John / Doe / Google)

  • Associé à cela, j’ai un fichier Excel nommé company.xls qui a 2 colonnes : Company / NDD (Ex : Google / Google.com) - Ce fichier a été fait un peu à la main et un peu de manière automatique.

  • Je fais correspondre le fichier prospects.xls et le fichier company.xls via la colonne Company pour avoir : John / Doe / Google / Google.com
    Ces données sont insérées dans un petit soft que j’ai fait, pour en déduire l’email (John / Doe / Google / Google.com / j.doe@google.com)

Les performances de ce petit soft sont modestes, puisque sur 100 lignes testés, il m’en trouve 30 vraiment valides. C’est déjà ça de pris.

Pour les 70 restants manquants, je le fais à la main. C’est à dire que je cherche sur le web, le pattern le plus souvent utilisés : Google / Google.com / p.nom.
Ce qui signifie, qu’à chaque fois qu’un prospect est associé à « google.com » (et si mon soft n’a pas trouvé son email), il va créer/déduire l’adresse email à partir du pattern que je lui aurai indiqué.

Questions :

1- Pour les 70 restants, les pattern/formats d’emails sont trouvés à la main. Comment faire pour automatiser cela, selon vous ? (hunter ?)
Exemple, je donne en masse des noms de domaines en entrées et il me donne en sortie des patterns d’emails en fonction du nom de domaine.

2- Dans mon fichier company.xls, certaines lignes de sociétés ne sont pas associées à un nom de domaine. Du coup, je ne peux pas les importer dans mon petit soft pour en déduire l’adresse email.
J’utilise une API de Phantombuster, où je lui donne en entrée, une liste de Company, et il me retourne un Nom de Domaine en fonction de la Company.

Je suis assez déçu des résultats de cet API.

Est-ce que vous avez d’autres solutions pour ce point ?

3- L’idée finale, est que chaque ligne de mon fichier prospects soit remplies d’une adresse emails valides - Soit car mon petit soft a pu trouver un email valide ou soit car j’ai pu fournir un pattern d’email possible

Quelques chiffres :

Actuellement j’ai scrapé 110 000 contacts sur Linkedin - J’ai pu en importer 80 000 dans mon petit soft (car ils ont bien tous les elements nécessaires) et du coup, obtenir 20 000 emails valides via ce soft.

Il me reste 110 000 contacts - 20 000 = 90 000 contacts sans emails. Grâce à ma technique du pattern, j’ai pu re-créer environ 5000 emails.

In fine, j’ai 110k - 20k - 5k = 85 000 contacts sans adresses emails.

Merci de votre lecture.

A partir d’un nom d’entreprise, hunter te permet d’avoir l’url et la pattern email. Du coup je pense que c’est l’outil qu’il te faut pour tes deux problématiques. Après faut voir le pourcentage de trouvé.

Tu peux aussi utiliser l’api gratuite de clearbit :

https://autocomplete.clearbit.com/v1/companies/suggest?query=facebook pour companyname > url.

2 J'aimes

Merci pour tes tips @camillebesse.

Est-ce que tu sais comment utiliser l’autocomplete.clearbit avec des noms de sociétés composées ?

Groupe OCF -> https://autocomplete.clearbit.com/v1/companies/suggest?query=Groupe%20OCF

un « + ».

Mais de toute façon sur les entreprises française tu auras un taux de match assez bas.

Pour passer d’un nom de société à un domaine, j’ai de très bon résultats avec google maps.

Url à appeler : https://www.google.fr/search?tbm=map&q={query} où {query} est le nom de la société (+adresse si tu l’as).

Cela te renvoie un .txt, et avec une expression régulière tu récupères le premier url qui ne contient pas « google » ou « gpages » il me semble.

4 J'aimes

Super cette méthode ! Est-ce que tu as des feedbacks sur les volumétries de requêtes que tu peux faire sans avoir de blocages ?

Pas du tout, désolé !

Par mesure de précautions je passe toujours par un proxy rotatif (perso j’utilise scraperapi) pour éviter de faire sauter l’IP de ma boite :sweat_smile:

Mais je suppose qu’ils bloquent moins que des résultats Google car on récupère direct un .txt, je les vois mal mettre un captcha avant le fichier. Mais c’est à tester !

Pas de soucis !

Bon après, que la requête te renvoi un fichier .txt ou n’importe quelle autre type de ressources, du moment que t’envoie une requête HTTP ils peuvent te bloquer ou te mettre du captcha en réponse comme bon leur semble :frowning:

C’est vrai !
Après ce qui bloque sur les requêtes Google c’est principalement les filtres de recherche ( notamment inurl: ). Quand on fait des requêtes « classiques » on a beaucoup plus de marge avant d’être bloqué, je me dis donc que sur Google maps, sans filtres, ça doit être équivalent :slight_smile:

Mais le plus simple reste de tester en bombardant !

Et que revoit le fichier si l’entreprise n’a pas de site ou si elle n’est pas inscrite sur maps ?

Si la société n’a pas de site web, tu ne récupères que des urls « google/gpages » et donc avec le filtre tu ne sors aucun résultat. S’il n’y a pas de correspondance de trouvée tu n’auras également pas de résultat, car pas d’url dans le .txt

Après pour maximiser le taux de match, je conseille de passer par l’astuce de @Romain_Carpentier, en récupérant l’adresse de l’enteprise avec l’url https://entreprise.data.gouv.fr/etablissement/{siret} où tu remplaces {siret} par le siret de l’entreprise.

En envoyant Nom de l’entreprise + Adresse sur google maps tu trouveras déjà pas mal de sites.

3 J'aimes

Merci pour le tuyau, je me le note de côté :slight_smile:

C’est beau ca. Merci @ClementAubry

Avec plaisir :wink:

Trouver le nom de domaine d’une boîte à partir d’un nom, sur des TPE françaises, c’est ma principale difficulté en ce moment. Sans compter les domaines de mails qui sont différent du domaine du site …

Si je trouve d’autres astuces je les partagerai ici !