Ressources sur le scraping à jour ?

m_a_x_e_n_c_e · Janvier 3, 2020, 10:30

Bonjour tout le monde,

Je me suis mis au scraping depuis maintenant plus de 2 ans. J’ai accumulé pas mal d’experience mais il en ressort un apprentissage essentiel: peu importe ce que j’apprends, il faut toujours être à jour car les choses évoluent très très vite.

De cette conclusion, est venue l’idée de proposer à la communauté de créer une sorte de doc/process de scraping en fonction des types de site à scraper ou du besoin, qui serait maintenu à jour par la communauté en fonction des nouveaux changements.
J’espère que ce n’est pas contraire à l’idée du forum, cela nous obligerait à avoir un powerpoint ou autre à partager en dehors du forum, histoire que ce soit visuellement lisible.
Je n’ai aucune idée commerciale derrière la tête, juste le sentiment que si l’on avait une base de documents structurée et partagée, on serait bien plus efficace.

Quelques exemples de questions auxquels le doc pourrait apporter des réponses:

Quels sont les différentes structures de site web (contient du JavaScript ou non, WordPress classique etc.)
Quelles sont les différentes méthodes ou langague disponible ? (Selenium avecPython, BeautifulSoup, RSelenium avec R, Node.js, Importxml de Google sheets avec du XPath etc.)
Quelles sont les types de protection les plus efficaces ? (solution de Datadome, etc.)
Quelles sont les solutions plus « clé en main » qui fonctionnent aujourd’hui (apparement ZennoPoster même si je n’ai pas testé etc.)
Quelles sont les grandes lignes des méthodes de scraping ? (rotation adresse IP, user-agent
Comment passer le test des captchas?
Où trouver de bons proxy pour les rotations d’adresses IP?
Quelles méthodes utiliser si Selenium ne fonctionne pas
Quelles méthodes quand Selenium/le chrome headless ne fonctionne pas?
Quels sont les sites qui utilisent telle ou telle protection? (ex: sites qui utilisent Datadome: Leboncoin, les PJ, Upwork, Neilpatel, Google SERP, Appannie etc. ==> info vu sur le forum, à confirmer bien sûr)
Comment paralléliser le scraping avec Docker ?
-… et bien d’autres !

A terme, l’déal serait de créer une sorte de process à suivre qui augmenterait grandement les chances de réussite de scraper un site web.
En fonction du retour de ce post, je proposerais un moyen de partage adapté (google drive ou autre).

Merci à vous!

Maxence

camille · Janvier 3, 2020, 10:39

Ce serait possible de faire ça en mode wiki, un peu comme : La toolbox du growth 🧰

The scraper master guide

m_a_x_e_n_c_e · Janvier 3, 2020, 10:45

Yes, pour le maintien à jour ce serait top (qui existe déjà en partie avec la section Scraping du coup). Mais je pense que pour expliquer certaines méthodes ou concepts il faudrait aussi des visuels/slides que des simples liens. Après je ne sais pas si c’est faisable sur le forum

camille · Janvier 3, 2020, 10:48

Ca pourrait être un mix entre une toolbox et l’intégration de slideshare.

m_a_x_e_n_c_e · Janvier 3, 2020, 11:45

Ok top. J’attends de voir si le sujet intéresse des personnes et si c’est le cas je peux les mettre en place. Du coup pour ceux intéressé n’hésitez pas à mettre un +1 ou donner votre avis

Baptiste_Dbv · Janvier 6, 2020, 12:42

Tout à fait intéressé !

Zernit · Janvier 7, 2020, 10:54

L’idée est intéressante ! Je serai ravi d’y apporter ma petite contribution si l’idée voit le jour

Rzah · Janvier 8, 2020, 1:42

Beau projet +1 !

m4r7ino · Janvier 8, 2020, 3:59

Partant pour participer également on pourrait meme utiliser Notion.so pour le faire

m_a_x_e_n_c_e · Janvier 8, 2020, 6:17

Hello tout le monde, j’ai initié un draft de draft que j’ai mis à disposition sur mon drive: https://drive.google.com/file/d/13lpOwBLDSn7OuXhkp5fmg-VvQ3z8WiNJ/view?usp=sharing
Vous pouvez faire les modifications avec ce lien.
Comme mentionné à @camille, les admins peuvent si besoin le réintégrer à Slideshare si plus simple pour le forum.
Je pense qu’il faudrait s’accorder sur une structure de plan pertinente à garder comme trame et ensuite on pourra itérer la dessus.
Je pense qu’il faudra faire l’effort de mettre la date de MAJ à chaque changement pour s’assurer de la fraicheur de l’information.

Pascal_BizDev · Janvier 9, 2020, 10:40

Très bonne initiative

ksahin · Janvier 10, 2020, 8:38

Hello,

Sur le blog de ma boite je publie régulièrement du contenu sur le scraping, voici un guide plutôt complet qu’on a écrit pour Python: Python Web Scraping: Full Tutorial With Examples (2024) | ScrapingBee

Bientot un énorme guide arrive pour Java!

m_a_x_e_n_c_e · Janvier 10, 2020, 9:11

Top votre blog L’idée de mon post c’était surtout de centraliser tous ces sujets/blogs de qualité en un seul et même endroit justement, pour ne pas réinventer la roue. J’ai initié un ppt mais si d’autres connaissent un meilleur outil n’hésitez pas à le lancer.

Sirdjey · Janvier 13, 2020, 7:58

Bonjour, je suis intéressé également.

Axel_Corton · Janvier 13, 2020, 9:45

Super idée !

m_a_x_e_n_c_e · Janvier 13, 2020, 9:50

Connaissez-vous le meilleur outil pour un travail collaboratif sur ce sujet? J’ai initié le PPT partagé à modifier mais ça n’a pas l’air de prendre

vicento · Janvier 13, 2020, 2:19

Très Bonne idée

shours · Janvier 15, 2020, 10:36

Très belle initiative

EJK · Janvier 16, 2020, 12:48

Top idéee +1