Extraction e-mail sur un formulaire web


#1

Salut à tous,

Je cherche à extraire les e-mails d’un annuaire : http://www.experts-comptables.fr/annuaire.
L’annuaire permet de contacter les personnes via un formulaire qui leur être transmis par e-mail.

Auriez-vous une astuce en tête ?

Merci pour vos lumières.


#2

Salut,

J’imagine que l’email est conservé secret par l’annuaire, auquel cas il ne sera jamais divulgué ou présent dans leur code source.

Par contre ce qui est réalisable, c’est l’envoi de messages automatisé, en passant par leurs formulaires.


#3

Bonne idée l’automatisation de l’envoi de formulaire !
Le problème j’imagine c’est que le formulaire doit sans doute reformater le message de manière un peu sale.


#4

Il est certain que tu ne pourras pas avoir de bel email bien formatté en HTML, il faudra se limiter à ce que propose leur formulaire de base.

Non pour moi le vrai problème, ça va être le fait qu’ils puissent te bloquer si jamais tu envoies trop de messages via leurs formulaires, car un bot qui poste de multiples messages à répétition via un formulaire se fait facilement détecter.

A moins d’utiliser des proxies, et des user-agents différents…


#5

Encore une fois, très bien vu (tu mérites bien ton pseudo).
Pour les proxies, cela me paraît pas trop complexe… Mais pour les user agents, aucune expérience sur le sujet. Il y a des tools qui font ça ?


#6

Mon plus gros défaut: aucune connaissance des tools qui font déjà ça. J’ai moi même dev mes propres tools depuis quelques années, et je propose principalement du dev et scripts personnalisés. Le coté fun du dev c’est pouvoir créer ses propres bots, les rendre le plus humain possible, avec tout un tas de techniques variées.

Pour les user-agents, il y a plein de sites proposant des listes complètes des browsers existants, ça va des browsers type desktop aux versions tablettes ou mobiles. Mais le vrai problème ça restera certainement les proxies.

Pour un boulot de ce type il faudrait pouvoir disposer d’une pool de proxies assez importante, vu le nombre de messages à envoyer (“50259 RÉSULTATS” dans l’annuaire). Ou alors, on pourrait aussi simplement répartir l’envoi des messages sur un nombre de jours très large, histoire de noyer le poisson dans l’eau.


#7

Je suis de l’avis de ScrapingExpert.

Avec un bon scheduling ça devrait le faire. Pour infos j’ai moi aussi développé un outil de scraping avec la possibilité programmer les requêtes en fonction du jour / de l’heure avec des intervalles min et max et randomisés.

Avec cette technique, j’ai déjà eu l’occasion de scraper des milliers de data sur des sites sensibles comme societe.com / insee.fr / bodacc.fr


#8

La question que je me pose, c’est que vu cette problématique, nous ne sommes plus sur du scraping mais vraiment de l’automatisation pure et simple d’envois de messages via formulaires HTML, et du coup si le site n’est pas davantage protégé? D’habitudes pour contrer les bots d’envois de messages auto, les sites ont pour habitude de placer des captchas, mais pas eux…

(Tu as déjà eu des soucis de blocage sur Societe? J’ai sans problème pu obtenir des millions de page, sans mettre de timing particulier, comme si ils ne se protégeaient pas…)


#9

Merci pour vos retours. Si j’ai besoin, j’hésiterai pas à vous contacter en PM.


#10

Ca marche pas de soucis, au plaisir ! :grinning:


#11

Oui j’ai vu qu’il n’y avait pas captchas. Bizarre ! J’ai pas testé la sensibilité du site aux bots.

Pour societe.com, c’est par prudence. J’ai direct commencé à scraper en schedulant au cas où. Mais merci pour le tuyau. Je pensais qu’ils se protégeaient.


#12

No problem ! A nous deux on devrait en venir à bout :slightly_smiling:


#13

Excuse moi je suis un gros débutant
Mais comment faire pour scrapper juste les infos visibles stp? (les numero de tel nom et adresse)

Merci Beaucoup


#14

Dans ce style là?
Lien dropbox vers fichier CSV


#15

Euh… OUI !!! Merci Beaucoup!
C’est compliqué à faire??? (j’ai l’impression que c’est de la magie)
Merci encore!!


Team : CamilleBriceJulienVivianBorisXavierSteven.
Follow @growthhackingfr