Scraper une adresse mail sous un lien :-/


#1

Hello,

Je commence a me familiariser avec Webscraper qui est un super outil!

En revanche je bloque sur un site…

Je souhaite récupérer toutes les adresses mail de l’annuaire : http://www.annuaireduyoga.com/search/place mais les adresses son derrière un lien (qui ouvre ma boite mail).

Quelqu’un connait une solution?

Merci pour votre aide.

A.


#2

Hello,

Tu es certain de ton coup?

Car l’email semble bien visible en texte dans la page, sans avoir jusqu’à aller à l’attribut derrière le lien:


#3

Hello, merci pour ton retour.

Oui je suis sur, le 97% des pages ne présente pas l’email visible…
Tu connais une solution pour récupérer le mail?


#4

Le problème c’est que tu ne donnes aucune matière sur laquelle travailler, est-ce que tu peux nous donner 2-3 urls de pages avec l’email non visible pour qu’on puisse analyser? :slight_smile:


#5

Oui absolument.
Voila:
http://www.annuaireduyoga.com/view/place/BDUCNVBkBzYJPgc7AWdXOg==
http://www.annuaireduyoga.com/view/place/BzYBNlJmUWACNQE3AWIFZQ==
http://www.annuaireduyoga.com/view/place/CDlRZlBkVmcEM1BsCmsGZw==
http://www.annuaireduyoga.com/view/place/VGVVYg46BzZVYgYyAWdRNw==


#6

Possible d’avoir le sitemap de ton scraper ?


#7

Pour avoir accès à ce que tu fais référence en disant “caché”, c’est à dire un attribut derrière une balise HTML, il suffit de changer le type du sélecteur en “Element attribute”, et de spécifier le nom de l’attribut visé, ici “href”, tel que:

Ainsi, on obtient:

Mais ensuite il te faudra appliquer une regex pour n’extraire que la chaine 'mediationcourteline_AT_gmail.com' depuis
javascript:sendMail('mediationcourteline_AT_gmail.com')

Et finalement, remplacer le “_AT_” par un arobas. Tu peux faire les deux dernières étapes via une ligne JavaScript:

const rawEmail = "javascript:sendMail('mediationcourteline_AT_gmail.com')";
const extractEmail = (string, match) => match.replace('_AT_', '@');
const validEmail = rawEmail.replace(/.+'([^']+)'.+/, extractEmail);
console.log(validEmail);
// mediationcourteline@gmail.com

#8

Merci pour ton aide. J’ai réussi avec ta technique.
Bonne journée.
A.


Team : CamilleBriceJulienVivianBorisXavierSteven.