Emails à partir d'une liste de sites Web

De mon coté, Hunter commence à être un peu léger malheureusement.

Scrapebox fonctionne très bien avec sa fonction de crawl (+ trouver uniquement les adresses mails correspondantes au domaine) et me permet de récupérer des milliers de nouveaux mails tous les jours mais je ne peux pas intégrer cela directement dans mon script…

Même une adresse mail générique me convient dans un premier temps :slight_smile:

1 « J'aime »

Bonjour,

Tout d’abord j’espère être au bon endroit pour poster ce message.

J’ai parcouru l’ensemble des réponses de cette conversation. J’avoue être un peu perdu entre les différentes possibilités : hunter, snov, email extractor, grabby…etc.

Je suis actuellement en train de me constituer une liste de liens de sites web d’agences immobilières. Je n’ai aucune technique ni logiciel spécifique. Je copie colle les URL avec Tabcopy et les enregistre sur une simple page word 2003 (ville par ville)

Ma demande est la suivante :

Quel est à ce jour le meilleur outil/ logiciel pouvant ouvrir/ analyser chaque URL (liste de copies d’url onglets) et scraper les adresses mails (y compris celles se trouvant dans des pages « contact », « nous contacter », « contacter », « contactez-nous »…etc.
Il faut aussi que l’outil puisse créer la liste mail en format CSV pour les campagnes.

Je vous remercie par avance,

Baptiste

J’ai contacté Snov car j’étais tombé sur une situation étrange: il y avait un peu n’importe quoi dans leurs résultats (du genre toutes les combinaisons d’emails pour un nom+prenom), or de toute évidence une seule combinaison était la bonne.

J’ai eu pour simple réponse un truc du genre « on a viré les mauvais emails » mais sans plus d’explication, et ça m’a paru douteux. Ils sont bien moins cher que Hunter, certes, mais du coup peut être pas aussi fiables ?

Hunter te sera utile si tu souhaites obtenir les adresses email liées à un nom de domaine spécifique, adresses email qu’ils auront dénichés en crawlant le web, sous entendu il ne s’agit pas systématiquement d’adresses trouvés sur le site web de l’agence dans ton cas.

Pour ma part, j’ai dev un bot qui trouve uniquement les adresses mail existantes pour un site donné, et j’obtiens de bons résultats (parfois meilleurs que Hunter, mais uniquement pour cette partie je précise, je ne gère absolument pas les emails du nom de domaine du site en question qui existent ailleurs sur le web).

La solution ultime? Certainement Hunter + solution maison. Mais ça reste mon avis, prêchant en partie pour ma paroisse.

1 « J'aime »

Bonjour,

Merci pour ta réponse.

Concernant le bot que tu as développé, est il possible de lancer une recherche automatique comme avec hunter (exemple : une centaine d url en même temps) ou bien faut-il ouvrir les pages web une par une comme avec contact express ou coccimail ?

Autres choses, tu dis que hunter capture des mails en relation avec l url donné, et donc pas forcément sur la ou les page(s) du site en question…
As tu réalisé quelques tests et confronté les resultats en faisant une recherche manuelle d emails et une recherche avec hunter, sur une même page donnée ?

Merci

Hello Baptiste,

Je te suggère d’essayer leurs services et tu pourras ainsi te rendre compte rapidement de ce que j’ai voulu expliqué. Plus clairement, Hunter affiche les sources où ils ont trouvés les emails, ce qui te permet de voir qu’une grosse partie des adresses mails capturées proviennent d’autres sites (exemple: magazines, forums spécialisés, blogs, sites de news, etc.)

Un bon exemple, une fois que tu auras créé un compte gratuit:

Du coup, ces sources prouvent que les emails trouvées n’existent pas sur le site en propre de l’entreprise initialement recherché, c’est top :slight_smile:

Sinon, pour le bot que j’ai développé, celui-ci fonctionne en tant que worker, sur une implémentation du protocole AMQP, il est donc déployé en plusieurs instances en parallèle, sur plusieurs droplets, ce qui permet de crawler des batchs d’URLs en même temps. Les données sont stockées sur une même base de données hébergée sur le cloud (MongoDB ATlas)

Hello Scraping expert,

Je suis 100% d’accord. Je trouve que snov débusque d’avantages de mail personnalisé que hunter.

Cependant, comment fais tu pour avoir les BDD CSV avec les sites web ? Par exemple, je cherche à récupérer les noms et sites web des 15K sociétés de sécurité en France. Je ne trouve pas de logiciel adapté et Hunter/ SNOVIO ne me le permet pas.

As tu des idées ?

Hello Growth-a-coeur,

Scrapebox permet de scraper les mails génériques présents dans les URLs que Scrapebox t’a trouvé. Ces URLs comportent les mots clés que tu as préalablement enregistrés. Les recherches de scrapebox sont limites par google à 1K URLs.

Est ce que Scrapebox te permet de scraper d’autres mail ? Ce service n’est il pas un peu cher par rapport au bénéfice généré ? Le cout/ mail est assez élevé, non ?

A +

Il faut passer par leur API, via un script, le script va consommer les données résultantes de l’API que tu pourras finalement écrire dans un CSV.

Bonjour tout le monde,

Tout d’abord, merci pour votre participation à cette discussion j’ai appris pas mal de choses en vous lisant.

Cependant, je n’ai pas encore trouvé une solution à mon problème. Mais peut-être que la solution a été évoquée et j’ai mal lu. Je me permets de vous expliquez quand même mon « problème ».

Mon entreprise paye pour avoir accès à un répertoire d’entreprise dans lequel se trouvent des e-mails. Donc j’ai une liste d’entreprise, je clic sur une entreprise puis ensuite je clic sur « personnel » et là j’ai les e-mails. Ensuite, j’utilise un plugin sur mon browser qui m’affiche tous les e-mails de la page et je les copie/colle sur excel. C’est donc une tâche très répétitve et lourde, car je dois répéter cette opération pour chaque entreprise de la liste. Il me faut environ 1h pour 100 emails.

Ce que je souhaiterais c 'est automatisé cette tâche. Avec l’URL de la page de la liste, aller chercher les e-mails qui sont au 3ème niveau: 1. page de la liste 2. page de l’entreprise 3. l’onglet « personnel ».

Au début, j’ai essayé d’utiliser un API comme celui de Facebook qui me permet d’extraire en JSON les publications, likes etc d’une page FB mais ça reste du 1er niveau. Je n’ai pas réussi à extraire à partir de la page de la liste…au final c’était la même chose qu’avec mon plugin.

J’ai essayé un bout de script php trouvé sur une vidéo youtube…mais pareil je reste au premier niveau.

Ensuite j’ai essayé, EmailHunter, Emailextractor, Parsehub que vous avez conseillé ici. Ca m’aide un peu mais je n’automatise pas les tâches.

Par exemple avec email hunter, je vais chercher l’url du site de l’entreprise qui est dans le répertoire ensuite j’ai les emails et je peux les mettre dans « Leads » ce qui m’évite de copier coller tout le temps dans Excel. Mais je n’ai toujours pas réussi à extraire les emails qui sont déjà dans le répertoire mais à un 3eme niveau.

Voila, en espérant que ma demande ne répète pas ce que d’autres ont demandé précédemment.

Bonjour @Bak, pour ton cas c’est pas bien compliqué. Il te faut un script personnalisé qui te livrera directement le fichier Excel. Tu préciseras un exemple du fichier Excel que tu veux à la sortie et la fréquence de livraison si c’est pour l’injecter dans un autre programme.
Tu dois entrer certainement ton login et mot de passe sur cette plateforme ?
Est ce qu’il y a des limites ? Est ce que c’est légal (voir CGU) ?

@lorent Merci pour ta réponse.

Si j’ai bien compris, ce que tu suggère c 'est de créer un script qui extrait un excel ou CSV du répertoir payant que j’utilise. Mais le script devra scrawler le site non pour accéder à toutes les pages et sous pages ?

Je ne suis pas déveloper mais autodidacte. J’ai déjà extrait un excel avec R lorsque j’ai fais de l’analyse de review d’Amazon. Donc cette étape je vois ce que je peux faire. Mais ensuite quel script je peux utiliser pour qu’il scan tout le répertoire et qu’il m’extrait que les e-mails?

En effet il te faudra crawler avec un regex qui ressemble à ça ("[A-Za-z0-9._%±]+@[A-Za-z0-9.-]+.[A-Za-z]{2,6}") pour les mails et un script dans le langage que tu maîtrises le plus même si tu n’es pas développeur (Si tu maîtrises R, donc tu maîtrises la ligne de commande :wink:). Personnalisé parce qu’il utilisera tes informations de connexions et la structure du site (les répertoires que tu as accès). Après si c’est compliqué pour toi et que tu veux pas trop perdre ton temps, je suis sûr que tu pourras t’arranger avec un dev. En général c’est pas trop cher ce genre de script.

Merci pour les précisions @lorent. Je vais essayer de construire ce script pour avoir un travail plus propre.

Pour l’instant pour me dépanner j’ai utilisé Webscraper en gratuit. C’est pas mal même si il faut encore nettoyer les données sur excel après. Et il y a d’autres défauts quand même aussi.

Dans le cas où les emails sont proprement écrits, c a d via une balise HTML « a » avec un attribut href , on pourra facilement les trouver via ce XPath: //a[starts-with(@href, ‹ mailto: ›)]/@href

2 « J'aime »

Hello Xavier !
Je me demandais si tu avais déjà partagé ton bot quelque part ou est-ce que tu serais prêt à le partager ?

Merci !

Bonjour FGrante, est-ce que cette fonctionnalité est disponible pendant la période d’essai ?