Trouver Nom de Domaines et/ou Pattern Email (en masse)

#1

Bonjour à tous,

Au travers des différentes solutions proposées sur GH.fr, je ne trouve pas mon bonheur.

Voici ce que je fait aujourd’hui (Les Questions sont en bas :smiley: )

  • J’ai un script qui scrape LinkedIn pour me constituer ma base de prospects clients. Pour cela, ce script récupère différentes infos des profils, notamment Prénom + Nom + Company -> Ces données sont enregistrées dans un fichier Excel nommé prospect.xls (Ex : John / Doe / Google)

  • Associé à cela, j’ai un fichier Excel nommé company.xls qui a 2 colonnes : Company / NDD (Ex : Google / Google.com) - Ce fichier a été fait un peu à la main et un peu de manière automatique.

  • Je fais correspondre le fichier prospects.xls et le fichier company.xls via la colonne Company pour avoir : John / Doe / Google / Google.com
    Ces données sont insérées dans un petit soft que j’ai fait, pour en déduire l’email (John / Doe / Google / Google.com / j.doe@google.com)

Les performances de ce petit soft sont modestes, puisque sur 100 lignes testés, il m’en trouve 30 vraiment valides. C’est déjà ça de pris.

Pour les 70 restants manquants, je le fais à la main. C’est à dire que je cherche sur le web, le pattern le plus souvent utilisés : Google / Google.com / p.nom.
Ce qui signifie, qu’à chaque fois qu’un prospect est associé à “google.com” (et si mon soft n’a pas trouvé son email), il va créer/déduire l’adresse email à partir du pattern que je lui aurai indiqué.

Questions :

1- Pour les 70 restants, les pattern/formats d’emails sont trouvés à la main. Comment faire pour automatiser cela, selon vous ? (hunter.io ?)
Exemple, je donne en masse des noms de domaines en entrées et il me donne en sortie des patterns d’emails en fonction du nom de domaine.

2- Dans mon fichier company.xls, certaines lignes de sociétés ne sont pas associées à un nom de domaine. Du coup, je ne peux pas les importer dans mon petit soft pour en déduire l’adresse email.
J’utilise une API de Phantombuster, où je lui donne en entrée, une liste de Company, et il me retourne un Nom de Domaine en fonction de la Company.

Je suis assez déçu des résultats de cet API.

Est-ce que vous avez d’autres solutions pour ce point ?

3- L’idée finale, est que chaque ligne de mon fichier prospects soit remplies d’une adresse emails valides - Soit car mon petit soft a pu trouver un email valide ou soit car j’ai pu fournir un pattern d’email possible

Quelques chiffres :

Actuellement j’ai scrapé 110 000 contacts sur Linkedin - J’ai pu en importer 80 000 dans mon petit soft (car ils ont bien tous les elements nécessaires) et du coup, obtenir 20 000 emails valides via ce soft.

Il me reste 110 000 contacts - 20 000 = 90 000 contacts sans emails. Grâce à ma technique du pattern, j’ai pu re-créer environ 5000 emails.

In fine, j’ai 110k - 20k - 5k = 85 000 contacts sans adresses emails.

Merci de votre lecture.

0 Likes

#2

A partir d’un nom d’entreprise, hunter te permet d’avoir l’url et la pattern email. Du coup je pense que c’est l’outil qu’il te faut pour tes deux problématiques. Après faut voir le pourcentage de trouvé.

Tu peux aussi utiliser l’api gratuite de clearbit :

https://autocomplete.clearbit.com/v1/companies/suggest?query=facebook pour companyname > url.

0 Likes

Team : CamilleBriceJulienVivianBorisXavierSteven.