Scraping emails d'un site

timthegreen · Avril 7, 2019, 6:14

Bonjour à tous,

Newbee sur le GrowthHack, je suis depuis longtemps le forum GH et de près les techniques de sioux d’acquisition entre autres. Merci d’ailleurs pour les tips.

Je suis actuellement en train d’essayer de faire des exports d’adresses email de sites web et j’avoue avoir utilisé des add-ons chrome intéressants type getmail, email extractor, hunter etc.
Seulement ces derniers ne permettent que de l’extract par page (sauf erreur)
Or, je cherche à faire un export des emails présents sur chaque page d’un site (et export txt, csv, excel ou autre)

J’ai regardé dans les sujets postés depuis longtemps, mais sans succès jusqu’ici.

Pour information, il ne s’agit pas de site(s) type annuaire avec des milliers d’emails mais plutôt d’un volume de 100 à 200 emails.

Auriez-vous par hasard une idée sur la méthode à adopter ou tester ?
Merci de votre aide,

Bonne fin de weekend,

Tim

surpriz · Avril 7, 2019, 6:48

Tu peux nous montrer les pages en question,?

ScrapingExpert · Avril 7, 2019, 7:05

Si tu as un faible volume de pages, et que le site n’est pas trop compliqué, tu pourrais tenter de configurer un scenario de scraping via Dataminer ou WebScraper.

timthegreen · Avril 7, 2019, 8:55

Hello ScrapingExpert,

Merci de ta réponse.
Je vais creuser et voir si peux créer ça.
Webscraper a l’air plus facile à prendre en main.
Je te tiens au courant,
Bonne soirée,

Tim

timthegreen · Avril 7, 2019, 8:55

Hello Surpriz,

Merci de ton retour.

Voilà quelques exemples :
https://lille.art-up.com/exposants/art4/
http://www.sna-france.com/Liste-des-exposants-N=42b7c181-9616-4edc-8e2d-87c0b9831046-L=FR.aspx
https://www.liste.ch/en/the-show/exhibitors.html

Les emails sont des pages de niveaux inférieurs du coup.
Merci de ton aide,

Bonne soirée,

Tim

Camille · Avril 7, 2019, 8:58

Je te conseille Scrapebox qui te dépannera dans la majorité des cas.

ScrapingExpert · Avril 7, 2019, 9:30

Pour le 1er (lille.art-up.com), j’ai fais quelques pages manuellement, mais vu aucune adresses e-mail, tu sais où les trouver?

Pour sna-france.com, il s’agit de salons de collectionneurs de 2009, 2008 et 2007, attention à la pertinence des données, peut être un peu trop anciennes?

Pour le troisième site (liste.ch), voici le sitemap de WebScrapre que tu pourras importer pour exécuter le scrape automatiquement:

{"_id":"listech_exhibitors","startUrl":["https://www.liste.ch/en/the-show/exhibitors.html"],"selectors":[{"id":"exhibitors","type":"SelectorLink","parentSelectors":["_root"],"selector":"li>a[class='match c-100 fl","multiple":true,"delay":0},{"id":"name","type":"SelectorText","parentSelectors":["exhibitors"],"selector":".title-1","multiple":false,"regex":"","delay":0},{"id":"email","type":"SelectorText","parentSelectors":["exhibitors"],"selector":".c-50 a[href*=mailto]","multiple":false,"regex":"","delay":0},{"id":"website","type":"SelectorElementAttribute","parentSelectors":["exhibitors"],"selector":".c-50 a[target]","multiple":false,"extractAttribute":"href","delay":0}]}

timthegreen · Avril 8, 2019, 10:32

Merci de ta réponse.

Pour Lille Art, tu as ce genre de page avec onglet mais qui ont bien un URL spécifique :
https://lille.art-up.com/exposants/art4/#tab-presentation-414
Et tu as bien un email présent dans cette page.

Pour ce qui est de la récence des données, je m’attends à avoir quelques déchets oui, mais les galeries sont assez pérennes et peu changeantes

Merci pour le sitemap de Liste.ch.
Je l’intègre dans le soft de Webscraper.io du coup c’est bien cela ?

Merci de ton aide,

Tim

timthegreen · Avril 8, 2019, 10:35

Hello Camille,

Merci du conseil.
Facile à prendre en main et piloter ?

Bonne journée,

Tim

YanisTail · Avril 8, 2019, 11:08

Hello @timthegreen,

Voici un tuto qui pourra sans doute t’aider à utiliser Webscrapper :

Pour l’import tu sitemap de @scrapping_expert, il suffit de faire « Create new sitemap » puis « import sitemap » et de coller le sitemap fourni.

Camille · Avril 8, 2019, 11:12

Oui et non, mais si tu prends le temps, tu ne le regretteras pas, car c’est vraiment un couteau Suisse.

ScrapingExpert · Avril 8, 2019, 12:03

Au fait, il n’y a qu’un seul « p » dans scraping

Sinon, concernant WebScraper, je le trouve de plus en plus limité, et cela en particulier sur deux points:

Ne permet que l’usage des sélecteurs CSS (limitation énorme déja, pas possible de remonter dans l’arbre HTML ou de revenir sur un sibling précédent)
Ne peut cliquer que sur les liens (balises « a ») qui possèdent un attribut href (ne fonctionne pas avec les liens de type « dynamique », ou lorsque le href est en réalité un appel à du JavaScript)

Je me tate, mais j’aimerais réécrire l’extension pour prendre en compte les sélecteurs XPath + possibilité de cliquer sur les liens n’ayant pas de href. Seulement le code est assez imbuvable…

@YanisTail tu as eu aussi ce prob pour les clics sur liens sans attribut href?

timthegreen · Avril 8, 2019, 8:48

@ScrapingExpert @YanisTail
Hello à vous deux,
Merci des précieux conseils.
J’ai testé avec le tuto sur un site pour commencer cette aprem, et nickel !
Franchement, c’est assez simple - merci.
Je creuse encore demain dès que j’ai le temps, en tout cas, pour l’instant, ça a l’air d’être la bonne solution.

Bonne soirée,

Tim

PS : J’ai édité le titre du thread

YanisTail · Avril 9, 2019, 8:32

Hello @ScrapingExpert

Non je n’ai pas encore rencontré ce problème. Il me semble que le click sur des boutons JS peut être géré par des « Element Click Selector » (en tout cas d’après leur doc : Installation | Web Scraper Documentation). Je n’ai pas encore testé ce cas.

Pour ce qui est de l’utilisation des sélecteurs Xpath, je ne sais pas trop, mes compétences « techniques » s’arrêtent là

Est-ce que les « Element click Selectors » peuvent fonctionner pour écarter les limites que tu mentionnes ?

ScrapingExpert · Avril 9, 2019, 9:19

Probablement, mais je n’ai pas compris l’intérêt d’avoir deux sélecteurs (appelés respectivement « Selector » et « Click selector » dans WebScraper) si c’est pour l’utiliser en tant fonctionnalité « clic » uniquement.

J’utilise le type « Element click » lorsque, par exemple, plusieurs entités dont je souhaite extraire les infos (par exemple une liste d’avocats) existent au sein des résultats paginés d’une recherche et ne nécessitent pas de visiter une page « profil » ou « détail », à l’image de la structure qu’on peut voir sur https://www.barreaudenice.com/annuaire/, mais nécessitent des clics sur le bouton « page suivante ».

Dans le cas présent, on doit identifier deux sélecteurs:

le sélecteur qui permet de cibler chaque ligne entité, ou avocat, pour laquelle on souhaite extraire relativement les informations (nom prénom adresse, etc)
le sélecteur qui permet de cibler l’élément sur lequel cliquer

Alors oui on pourrait utiliser le type « Element click » juste pour cliquer sur un bouton de type JavaScript, mais le champ « Selector » ici ne servirait à rien, seul le « Click selector » serait utile.

YanisTail · Avril 10, 2019, 1:02

Je suis d’accord avec toi sur la méthode de ton précédent post.

Si tu as un exemple de site que tu veux scraper, qui contient des boutons JS je suis preneur pour essayer

ScrapingExpert · Avril 10, 2019, 1:02

Fais toi plaisir !

https://www.ffbatiment.fr/federation-francaise-du-batiment/laffb/annuaire.html

YanisTail · Avril 10, 2019, 1:06

Tu veux récupérer toutes les entreprises c’est ça ?

ScrapingExpert · Avril 10, 2019, 1:07

Ah non moi je n’ai besoin de rien, je sais gérer tout ça avec mes propres outils.

Mais tu me demandais un exemple pour la gestion du clic sur boutons JavaScript, alors voilà un exemple

YanisTail · Avril 10, 2019, 1:14

Ah oui effectivement là je suis bloqué
Dacs je comprends les limites dont tu parles maintenant merci !