Je cherche à extraire les e-mails d’un annuaire : Annuaire des experts-comptables.
L’annuaire permet de contacter les personnes via un formulaire qui leur être transmis par e-mail.
Bonne idée l’automatisation de l’envoi de formulaire !
Le problème j’imagine c’est que le formulaire doit sans doute reformater le message de manière un peu sale.
Il est certain que tu ne pourras pas avoir de bel email bien formatté en HTML, il faudra se limiter à ce que propose leur formulaire de base.
Non pour moi le vrai problème, ça va être le fait qu’ils puissent te bloquer si jamais tu envoies trop de messages via leurs formulaires, car un bot qui poste de multiples messages à répétition via un formulaire se fait facilement détecter.
A moins d’utiliser des proxies, et des user-agents différents…
Encore une fois, très bien vu (tu mérites bien ton pseudo).
Pour les proxies, cela me paraît pas trop complexe… Mais pour les user agents, aucune expérience sur le sujet. Il y a des tools qui font ça ?
Mon plus gros défaut: aucune connaissance des tools qui font déjà ça. J’ai moi même dev mes propres tools depuis quelques années, et je propose principalement du dev et scripts personnalisés. Le coté fun du dev c’est pouvoir créer ses propres bots, les rendre le plus humain possible, avec tout un tas de techniques variées.
Pour les user-agents, il y a plein de sites proposant des listes complètes des browsers existants, ça va des browsers type desktop aux versions tablettes ou mobiles. Mais le vrai problème ça restera certainement les proxies.
Pour un boulot de ce type il faudrait pouvoir disposer d’une pool de proxies assez importante, vu le nombre de messages à envoyer (« 50259 RÉSULTATS » dans l’annuaire). Ou alors, on pourrait aussi simplement répartir l’envoi des messages sur un nombre de jours très large, histoire de noyer le poisson dans l’eau.
Avec un bon scheduling ça devrait le faire. Pour infos j’ai moi aussi développé un outil de scraping avec la possibilité programmer les requêtes en fonction du jour / de l’heure avec des intervalles min et max et randomisés.
Avec cette technique, j’ai déjà eu l’occasion de scraper des milliers de data sur des sites sensibles comme societe.com / insee.fr / bodacc.fr…
La question que je me pose, c’est que vu cette problématique, nous ne sommes plus sur du scraping mais vraiment de l’automatisation pure et simple d’envois de messages via formulaires HTML, et du coup si le site n’est pas davantage protégé? D’habitudes pour contrer les bots d’envois de messages auto, les sites ont pour habitude de placer des captchas, mais pas eux…
(Tu as déjà eu des soucis de blocage sur Societe? J’ai sans problème pu obtenir des millions de page, sans mettre de timing particulier, comme si ils ne se protégeaient pas…)
Oui j’ai vu qu’il n’y avait pas captchas. Bizarre ! J’ai pas testé la sensibilité du site aux bots.
Pour societe.com, c’est par prudence. J’ai direct commencé à scraper en schedulant au cas où. Mais merci pour le tuyau. Je pensais qu’ils se protégeaient.