Scrap google result

Bonjour la team

Est-il possible de scraper les mails et tel des sites internets qui sortent sur une requête précises?

Merci pour votre aide

Hello @rorojc. Tu veux dire depuis une recherche dans un moteur de recherche?

Si c’est le cas, oui tu peux le faire assez simplement.

Plusieures méthodes.

La première:

Tu rentres ta recherche, puis tu scrape tous les résultats qui te donneront les sites en relation avec la requête tapée.

Ensuite tu vas extraire le sitemap des sites en question - les URLs qui forment la structure du site - pour trouver des numéros de téléphones et des emails (ex: les tels de contact dans le footer, la page « qui sommes-nous », etc).

Cette méthode est longue car du doit crawler le site et selon sa taille, ça peut prendre un certain temps.

La deuxième méthode:

Tu utilises les opérateurs de recherche Google, par exemple:

site:linkedin.com inurl:linkedin.com/in "software engineer" California "@gmail.com"

Tu rentres plusieures URLs sur une Google sheet, puis tu scrapes tous les résultats (300 max par recherche Google) puis tu utilisera un regex pour extraire les emails et téléphone.

Tu peux faire ton template en concaténant ta recherche sur plusieures colonnes:

Si tu cibles bien avec les bons opérateurs tu peux extraire des tonnes d’emails comme ça.

Puis tu envoie ça sur une Google Sheet dans laquelle tu vas utiliser des regexes pour extraire les emails et téléphones contenus dans la description de chaque résultats de recherche que tu as préalablement scrapées:

Pour les regexes Google Sheet c’est très simple. Admettons que ta data est dans la cellule A1:

Pour les emails tu peux utiliser:
=iferror(Regexextract(A1,"[A-z0-9._%+-]+@[A-z0-9.-]+\.[A-z]{2,4}"),"")

Pour les téléphones US:
=REGEXEXTRACT(A1,"\(*\d\d\d\)* *-*\/*\d\d\d *-*\/*\d\d\d\d")

Pour les téléphone français:
=REGEXEXTRACT(A1,"^0\d(?:[ .-]?\d{2}){4}$")

Tu peux jouer avec plusieurs regexes que tu rentreras entre les guillemets «  » dans ta formule.

Tu peux faire ça avec Phantombuster, TexAu (nous), Apify, Captain Data, Botster, Scrapebox et une pléthore d’autres tools. Encore une fois, c’est pas le tool, c’est la méthode.

La troisième:

Détermination algorithmique du pattern d’email puis vérification. Généralement déterminé en utilisant le nom de domaine et plusieures combinaisons d’email + validation depuis le nom de la société, son domain, et le prénom/nom d’un contact. C’est la méthode utilisée pour les email pros en général.

Des tools comme Dropcontact et Hunter font comme ça en plus de scraper les résultats de recherches. Tu peux combiner ça après avoir scrapé les domaines pour trouver des emails.

J’espère que ça répond à ta question. Si tu as un cas en tête, partage un exemple, je te dirais ce que tu peux faire.

4 « J'aime »

Bonjour,
oui !