Apprendre PhantomJS pour scrapper

Salut les hackers !

Mon premier post sur GH.fr que je suis depuis assez longtemps.

Je voudrais commencer à apprendre à créer des scripts pour scrapper des sites, notamment là j’essaie de trouver des BDD de professionnels de la santé au QC.

Mais j’y connais rien. J’ai un background dev (IUT info), mais j’ai pas codé depuis longtemps).

J’ai souvent entendu parler de PhantomJS, je viens de voir que ce n’était à priori plus supporté. Mais je ne trouve rien qui m’apprendre comment faire mon script, et comment ça marche.

Avez-vous des tutos / ressources là-dessus ?

Merci les amis !

cc @ScraperMasters

Hello !

Je te conseille de passer par CasperJS en surcouche de PhantomJS afin de te faciliter la vie. Pour les tutos, tu trouveras ton bonheur assez facilement via Google en recherchant « Scraping with CasperJS », par exemple:

http://toddhayton.com/2015/03/20/scraping-with-casperjs/

N’hésites pas si tu as des questions.

2 « J'aime »

As-tu envisagé nightmarejs plutot que phantomjs ? ca utilise electron (plus gourmand) mais la syntaxe est franchement plus simple.

tu trouveras des exemples commentés ici: https://github.com/rosshinkley/nightmare-examples/tree/master/examples

2 « J'aime »

@ScrapingExpert Merci ! Je vais regarder ça de plus près !

@cebri En réalité je débute, et j’ai envisagé ce que j’ai lu sur le sujet, mais je suis vraiment ouvert à tout. L’avantage c’est que c’est plus simple ?

Pour avoir pas mal refait de scrapers ces derniers temps, je trouve PhantomJS assez lent et avec une syntaxe assez relou (avis perso pour les bindings en Python). Après ça reste un choix très cool pour les sites en JS.

Je suis un grand fan de BeautifulSoup, mais depuis peu je me suis mis à Scrapy.

La courbe d’apprentissage est plus hard (c’est un framework complet), mais un fois maîtrisé ça dépote. Ils ont récemment ajouté une extension pour scraper les sites générés en JS en plus (avec un browser en full Python, qui bouffe beaucoup moins de mémoire que ses compères en JS). En plus, c’est un framework asynchrone/concurrent, ça va super vite. Genre je viens de scraper toutes les offres de locations d’appart de Leboncoin en moins de 10 secondes :smiley:

1 « J'aime »

Salut !

Phantombuster est vraiment sympa aussi !

1 « J'aime »