Scrap d'email (liste de site web)

Hello la communauté Growth,

J’ai un fichier contenant une liste de +3000 sites web
Quel outil je peux utiliser pour fouiller les pages des sites et récupérer les @ ?

Salut,

si t’as un peu de budget (25$) et que tu touches un peu à l’automatisation tu peux utiliser cette API: Website Contacts Scraper j’ai eu des bons résultats avec.

Sinon je m’étais fait un script en python qui avait pas mal marché, je peux te le partager si besoin.

1 « J'aime »

Un peu plus couteux mais sans coder et très simple tu as Clay qui fait ça en natif

1 « J'aime »

Un script pyton avec une regex

en 2s avec cursor sans codé toi

1 « J'aime »

Hello @growthax,

1/ nettoyer ton fichier pour identifier les sites lives
pour débuter tu dois checker la dispo serveur des sites
attention si c’est un saas de type shopify, tu vas devoir récupérer le html de la home et valider que c’est pas une page en construction ou autre

2/ collecte des mails
la version simple serait un script qui parcourt le site à la recherche d’un @ et clean si le domain ne matche pas

Chez lebotin on est spécialisé sur ce sujet
A ta dispo pour échanger

1 « J'aime »

mouai
tu as un taf à faire pour pas te faire ban par cloudflare

1 « J'aime »

Merci pour les retours,

Au départ, j’étais plus sur une solution nocode type octoparse ou dataminer pour récupérer uniquement les emails sans avoir à faire un script (pas l’habitude de coder donc je sens que je vais me casser les dents dessus…)

Mais pas certains du résultat.

Je continue de créer ma base de données, j’ai bien 50% des urls qui sont des pages évènements Facebook (l’email est présent dans les informations / résumer des pages) mais bon ça me complique un peu le process.

Idem pour les sites web où l’email n’est pas directement présent dans la home page mais parfois dans les pages contacts.

Salut, tu peux chercher le site officiel octoparse.fr contacter l’assistant en cliquant sur le logo bleu en bas à droite

tente les mentions légales

Tu peux essayer ça aussi ça marche très bien pour les sites qui n’ont pas de signin wall Email & Phone Extractor · Apify