Extraction e-mail sur un formulaire web

GEDEA · Mai 18, 2016, 8:26

Salut à tous,

Je cherche à extraire les e-mails d’un annuaire : Annuaire des experts-comptables.
L’annuaire permet de contacter les personnes via un formulaire qui leur être transmis par e-mail.

Auriez-vous une astuce en tête ?

Merci pour vos lumières.

ScrapingExpert · Mai 18, 2016, 9:05

Salut,

J’imagine que l’email est conservé secret par l’annuaire, auquel cas il ne sera jamais divulgué ou présent dans leur code source.

Par contre ce qui est réalisable, c’est l’envoi de messages automatisé, en passant par leurs formulaires.

GEDEA · Mai 18, 2016, 9:29

Bonne idée l’automatisation de l’envoi de formulaire !
Le problème j’imagine c’est que le formulaire doit sans doute reformater le message de manière un peu sale.

ScrapingExpert · Mai 18, 2016, 9:33

Il est certain que tu ne pourras pas avoir de bel email bien formatté en HTML, il faudra se limiter à ce que propose leur formulaire de base.

Non pour moi le vrai problème, ça va être le fait qu’ils puissent te bloquer si jamais tu envoies trop de messages via leurs formulaires, car un bot qui poste de multiples messages à répétition via un formulaire se fait facilement détecter.

A moins d’utiliser des proxies, et des user-agents différents…

GEDEA · Mai 18, 2016, 10:25

Encore une fois, très bien vu (tu mérites bien ton pseudo).
Pour les proxies, cela me paraît pas trop complexe… Mais pour les user agents, aucune expérience sur le sujet. Il y a des tools qui font ça ?

ScrapingExpert · Mai 18, 2016, 11:54

Mon plus gros défaut: aucune connaissance des tools qui font déjà ça. J’ai moi même dev mes propres tools depuis quelques années, et je propose principalement du dev et scripts personnalisés. Le coté fun du dev c’est pouvoir créer ses propres bots, les rendre le plus humain possible, avec tout un tas de techniques variées.

Pour les user-agents, il y a plein de sites proposant des listes complètes des browsers existants, ça va des browsers type desktop aux versions tablettes ou mobiles. Mais le vrai problème ça restera certainement les proxies.

Pour un boulot de ce type il faudrait pouvoir disposer d’une pool de proxies assez importante, vu le nombre de messages à envoyer (« 50259 RÉSULTATS » dans l’annuaire). Ou alors, on pourrait aussi simplement répartir l’envoi des messages sur un nombre de jours très large, histoire de noyer le poisson dans l’eau.

darkslategrey · Mai 18, 2016, 12:07

Je suis de l’avis de ScrapingExpert.

Avec un bon scheduling ça devrait le faire. Pour infos j’ai moi aussi développé un outil de scraping avec la possibilité programmer les requêtes en fonction du jour / de l’heure avec des intervalles min et max et randomisés.

Avec cette technique, j’ai déjà eu l’occasion de scraper des milliers de data sur des sites sensibles comme societe.com / insee.fr / bodacc.fr…

ScrapingExpert · Mai 18, 2016, 12:14

La question que je me pose, c’est que vu cette problématique, nous ne sommes plus sur du scraping mais vraiment de l’automatisation pure et simple d’envois de messages via formulaires HTML, et du coup si le site n’est pas davantage protégé? D’habitudes pour contrer les bots d’envois de messages auto, les sites ont pour habitude de placer des captchas, mais pas eux…

(Tu as déjà eu des soucis de blocage sur Societe? J’ai sans problème pu obtenir des millions de page, sans mettre de timing particulier, comme si ils ne se protégeaient pas…)

GEDEA · Mai 18, 2016, 12:16

Merci pour vos retours. Si j’ai besoin, j’hésiterai pas à vous contacter en PM.

ScrapingExpert · Mai 18, 2016, 12:16

Ca marche pas de soucis, au plaisir !

darkslategrey · Mai 18, 2016, 12:20

Oui j’ai vu qu’il n’y avait pas captchas. Bizarre ! J’ai pas testé la sensibilité du site aux bots.

Pour societe.com, c’est par prudence. J’ai direct commencé à scraper en schedulant au cas où. Mais merci pour le tuyau. Je pensais qu’ils se protégeaient.

darkslategrey · Mai 18, 2016, 12:22

No problem ! A nous deux on devrait en venir à bout

Djamel · Mai 18, 2016, 12:47

Excuse moi je suis un gros débutant
Mais comment faire pour scrapper juste les infos visibles stp? (les numero de tel nom et adresse)

Merci Beaucoup

ScrapingExpert · Mai 18, 2016, 1:26

Dans ce style là?
Lien dropbox vers fichier CSV

Djamel · Mai 18, 2016, 1:28

Euh… OUI !!! Merci Beaucoup!
C’est compliqué à faire??? (j’ai l’impression que c’est de la magie)
Merci encore!!