Outils de Scraping ?

Merci, je vais tester ça :wink:

Bonjour à tous,

Ah vaste sujet le scraping.
Il existe pas mal de produits pour l’extraction de données, plus ou moins aboutis.
Mais ne pas confondre scraper et crawler.

Pour ma part, je codes en fonction du besoin.
J’ai ma préférence pour le Python.
Pour du simple scraping => Requests + lxml
Et si besoin de crawler le site, Scrapy, pour moi le meilleur framework à ce jour.
Après tout dépend du besoin et des protections anti scraping.

Ah je pensais que c’était un synonyme. Peux-tu développer ?

Crawler signifie parcourir l’ensemble des liens trouvés sur le site, comme le font l’ensemble des moteurs d’indexation (google, bing, yahoo, …). Telle une araignée qui tisse sa toile. Ils ne font que suivre les liens en respectant certains paramètres.

Le scraper, va simplement parcourir la structure d’un document (HTML, XML, CSV, …) et extraire les données nécessaires.

Pour résumer, il est nécessaire de crawler un site pour Scraper (extraire) les données qui nous intéresse, si elles se situent sur des centaines, des milliers de pages.

Mais dans certains cas, un simple Scraper peut faire l’affaire, même pour des milliers de pages. Si l’on connaît la structure.
Exemple, un catalogue à parcourir pour extraire les prix. On connaît le nombre de produits et la structure de l’url.
http://monsite/produit/1
http://monsite/produit/2
http://monsite/produit/3
http://monsite/produit/99000

1 « J'aime »

Belle suite d’outils à laquelle je rajouterai quand même Yahoo! Pipes qui permet de récupérer (expressions régulières ou xPath) des données sur des pages avec en sortie (et suivant les données de départ) du RSS, du json, du CSV…
Outil certes un peu déroutant au départ mais qui est assez puissant.

Les dernières mises à jour de impor.io sont vraiment bien si on ne veut pas développer … On n’a pas obligatoirement le résultat voulu (dommage) mais personnellement je le trouve utile.
Avec un export vers google sheets et en faisant des vlookup ca rend service.

Si quelqu’un a un outil de ce genre encore mieux je suis preneur :smile:

1 « J'aime »

Bonjour,

Intéressant ce sujet, mais connaissez vous un logiciel / site qui permet de récupérer les données lorsqu’elles sont cachées derrière un script java ex: sur leboncoin il faut cliquer sur afficher le numéro …

import.io / kimono permettent de récupérer des datas derrière du js dans pas mal de cas. Si ca ne marche pas, le mieux sera de passer par une macro imacros: avec ca, tu pourras faire ce que tu veux.

Par contre, sache que dans ton cas, ce que tu cherches à faire est va à l’encontre des CGU de leboncoin.

Dans ce cas il faut utiliser des solutions plus puissantes et faire appel à un développeur, par exemple avec des frameworks tels que casperJS ou selenium, qui se comportent comme un vrai navigateur et déclenchent tous les appels ajax.

Bonjour,

C’est clair, ça va à l’encontre des CGU de Leboncoin.

Bien souvent, avec le JS on a tendance à vouloir sortir l’artillerie lourde. Inutile dans ce cas.
Il suffit de vérifier les appels réseaux. C’est tout à fait gérable avec un scraper qui n’interprète pas le JS.

Le seul HIC, c’est le numéro généré au format GIF.

Donc là, faut sortir l’artillerie ===> OCR

En effet, il faut faire appel à un dev.

Bonjour,
personne n’a encore évoqué Mozenda qui a plusieurs avantages : gestion des javascripts, des page-list, anonymisation des crawls, mise en place de temps de pause aléatoires, extraction de tableaux, requêtes en boucle pour enrichissement des données, API, etc.

1 « J'aime »

Bonjour
Sauriez vous où est-ce que l’on peux trouver des tutoriels pour utiliser iMacros ?
Merci beaucoup

Bonjour,

J’ai une liste de plusieurs sites web dont je souhaiterai extraire les adresses mail. Si je dois le faire manuellement et un site après l’autre, ca me prendrait énormément de temps. Vous n’avez pas un outil qui me permettrai de faire ca plus rapidement ?

Merci d’avance.

1 « J'aime »

je découvre un nouveau venu dans la famille des scrapper
https://etools.io/

avantage, possibilité de cibler les sites par typologie et type de service

2 « J'aime »

hello, un petit nouveau : https://phantombuster.com/cloud-services?referral=growthhacking-5VaJxDdpb

2 « J'aime »

Je m’amuse bien sur Apifier :slight_smile:

1 « J'aime »

Bizarre… Personne ne parle de Zennoposter. C’est dommage !

4 « J'aime »

De loin le meilleur pour qui sait le maîtriser.

Un nouvel outil parmi les scrapers : http://hurryscrap.com :wink: