Bonjour tout le monde,
Je me suis mis au scraping depuis maintenant plus de 2 ans. J’ai accumulé pas mal d’experience mais il en ressort un apprentissage essentiel: peu importe ce que j’apprends, il faut toujours être à jour car les choses évoluent très très vite.
De cette conclusion, est venue l’idée de proposer à la communauté de créer une sorte de doc/process de scraping en fonction des types de site à scraper ou du besoin, qui serait maintenu à jour par la communauté en fonction des nouveaux changements.
J’espère que ce n’est pas contraire à l’idée du forum, cela nous obligerait à avoir un powerpoint ou autre à partager en dehors du forum, histoire que ce soit visuellement lisible.
Je n’ai aucune idée commerciale derrière la tête, juste le sentiment que si l’on avait une base de documents structurée et partagée, on serait bien plus efficace.
Quelques exemples de questions auxquels le doc pourrait apporter des réponses:
- Quels sont les différentes structures de site web (contient du JavaScript ou non, WordPress classique etc.)
- Quelles sont les différentes méthodes ou langague disponible ? (Selenium avecPython, BeautifulSoup, RSelenium avec R, Node.js, Importxml de Google sheets avec du XPath etc.)
- Quelles sont les types de protection les plus efficaces ? (solution de Datadome, etc.)
- Quelles sont les solutions plus « clé en main » qui fonctionnent aujourd’hui (apparement ZennoPoster même si je n’ai pas testé etc.)
- Quelles sont les grandes lignes des méthodes de scraping ? (rotation adresse IP, user-agent
- Comment passer le test des captchas?
- Où trouver de bons proxy pour les rotations d’adresses IP?
- Quelles méthodes utiliser si Selenium ne fonctionne pas
- Quelles méthodes quand Selenium/le chrome headless ne fonctionne pas?
- Quels sont les sites qui utilisent telle ou telle protection? (ex: sites qui utilisent Datadome: Leboncoin, les PJ, Upwork, Neilpatel, Google SERP, Appannie etc. ==> info vu sur le forum, à confirmer bien sûr)
- Comment paralléliser le scraping avec Docker ?
-… et bien d’autres !
A terme, l’déal serait de créer une sorte de process à suivre qui augmenterait grandement les chances de réussite de scraper un site web.
En fonction du retour de ce post, je proposerais un moyen de partage adapté (google drive ou autre).
Merci à vous!
Maxence