Apprendre le scrapping en 2018

Bonjour les GH,

Avez-vous des bonnes ressources pour se former sur le scrapping (articles, vidéos, formations payantes ou non) ?

La plupart des topics que j’ai trouvé sur gh.fr datent de plus d’un an et je sais que les outils évoluent vite dans ce domaine (PhantomJS, Casper, etc…).
Je suis conscient que je vais surtout me former sur le tas en expérimentant mais je cherche à poser les bases parce que je ne sais pas du tout par quoi commencer.

J’ai quelques bases en code, et mon objectif est surtout de scraper des annuaires en ligne pour de la prospection en cold mailing B2B.

Merci d’avance :wink:

1 « J'aime »

Tu dis « annuaires en ligne pour de la prospection en cold mailing B2B » , je pense a Linkedin Helper

Hello,

Tu peux trouver beaucoup de ressources en ligne sur le scraping ! La pluspart des trucs ne sont pas dépassés, à savoir que le protocole HTTP il n’a pas bougé, la sémantique non plus, le DOM, XPath, les proxies, les captchas…
En revanche, PhantomJS par exemple ce n’est plus maintenu, le lead dev a jeté l’éponge suite a la sortie du mode headless sur Chrome l’année dernière, qui est plus rapide, plus performant que PhantomJS.

Le plus important pour scrapper efficacement, c’est de comprendre ce qu’il y a en dessous, à savoir l’architecture d’une page web, comment fonctionne un navigateur, le protocole HTTP …

J’ai écris pas mal d’article de blog sur le sujet, ainsi qu’un eBook qui est en pré-vente et presque fini :slight_smile:
J’aborde tout de A à Z dans le livre, avec des exemples et un site « sandbox » pour s’exercer, avec entre autres:

  • Comment scraper une page « simple » i.e un tableau avec de la pagination

  • Comment scraper quelque chose derrière un formulaire de login

  • Comment scraper un site qui utilise beaucoup de Javascript / AJAX / framework JS

  • Comment passer un Recaptcha v2 de Google

Et bien d’autres choses (Extraire des informations d’un PDF, OCR sur les images, comment ne pas se faire répérer par les sites cibles, déployer tes scripts sur un cloud serverless…)

Les examples de codes sont en Java, mais les techniques sont applicables a n’importe quel langage !

En espérant t’avoir aidé,

Kévin

@surpriz merci je vais regarder ça. Cependant j’aimerais vraiment ne pas être limité qu’à une plateforme (LinkedIn) et me former sur tous les aspects du scrapping.

@ksahin Ok merci pour toutes ces infos, j’étudie tout ça. :wink:

Je me suis également renseigné ces derniers jours et je vais acheter ScrapeBox, ça me parait être pas mal pour débuter (abordable et pas trop de code/technique).

Je viens de suivre la formation sur tuto https://fr.tuto.com/ pour utilise web scraper http://webscraper.io/

Comment scraper et crawler un site web sans programmation ?
de Gabin Desserprit, tuto #71371
Comment scraper une page web en 2 minutes et sans programmation
de Gabin Desserprit, tuto #70111

En moins de 8 heures de formation et d’éssais, je suis devenu un as du scraping

1 « J'aime »

Super merci, je vais regarder ça avec intérêt. :grinning: