Scraping emails Google Search + Bonus

Hello all,

Je suis sur un process de Scraping d’emails en 2 étapes que j’aimerais résoudre. A savoir : Je n’ai aucune compétences en dev.

1/ Je cherche à scraper des emails qui sont apparents dans les résultats de recherches d’une requête Google. Ils sont principalement issus d’une plateforme sociale que je ne peux pas mentionner.
Certains membres de cette plateforme ajoutent leurs emails en texte dans leur description de profil.
Ils apparaissent donc dans les résultats et je n’arrive pas à les isoler pour les extraire avec des outils type Webscraper. Il faut certainement rajouter une Regex mais je ne trouve pas l’info. Pouvez vous m’aider là dessus please?

2/ Pour chaque résultat j’ai besoin d’un script qui ouvre le lien (= le profil de la personne sur la fameuse plateforme) et qui extrait un ID texte de la personne concernée.

Il faut que je puisse stocker ces 2 infos (email + ID) à minima dans un .csv. Quels seraient vos conseils pour qu’une personne non dev comme moi puisse le faire rapidement ? (méthodo, process, outils, etc.)

Merci infiniment d’avance pour votre aide !

Théo

Hello,

Pour isoler l’élément au sein de la page HTML, il te faut à minima maîtriser:

  • les sélecteurs (CSS ou XPath), sachant que WebScraper ne te permet que l’utilisation des sélecteurs CSS

et /ou

  • le fonctionnement de la sélection automatique de WebScraper, qui peut se révéler être parfois très limitée et insuffisante, auquel cas il faut passer en mode manuel et faire usage des sélecteurs CSS

et

  • les regex, utiles pour ne sélectionner qu’une sous ensemble spécifique d’une chaîne de caractère « indivisible » (contenu au sein de la même balise HTML)

Sinon pour le stockage en CSV, WebScraper fait ça très bien :slight_smile:

1 « J'aime »

Hello, top merci pour ton message. Je pense effectivement que j’ai besoin de connaître les regex pour ce cas précis. Est ce que tu sais quel regex je peux utiliser en JS, au moins pour isoler l’adresse email ? J’ai testé plusieurs choses mais rien ne fonctionne.

En termes d’outils je teste aussi ParseHub qui a l’air plus complet.

Tu trouveras ton bonheur avec google:
https://www.google.com/search?q=email+regex&oq=email+regex

1 « J'aime »

Très bien merci ! En fait j’ai trouvé mon bonheur sur un forum de ParseHub !

Connais-tu une bonne solution pour extraire tous les URLs d’une recherche Google stp ?

Pour ma part, suis mauvais sur l’aspect outils existants, je fais plutôt des bots personnalisés que je développe.

Peux tu regarder du coté de Apify, sur leur store j’ai trouvé ça:

Sinon WebScraper pourra aussi très bien faire le job si tu sais le configurer correctement.

1 « J'aime »