Outils de Scraping ?

LuStanislas · Août 2, 2014, 7:13

Bonjour à tous !

J’utilise actuellement l’outil Web Content Extractor, et j’aimerai benchmarker ce que vous utilisez pour l’extraction de donnée ?

camille · Août 2, 2014, 2:37

#[EDIT 2017 : Voir toolbox, et catégorie : scraping.]

Bonjour!

Pour les non-développeurs tu as :

Web Scraper (Addon Chrome)
Kimono (SaaS)
Scrapebox (Soft)
…

Pour les développeurs :

Scraperwiki
Scrapy
…

Si tu souhaites apprendre à développer toi même tes scripts, je te conseille de faire un tour sur cette discussion : Growth hacker, codeur ?

Malaiac · Août 2, 2014, 3:35

PHP encore et toujours. Pour de l’extraction en ligne, ca reste le plus facile à adapter à tout. Je n’extrais que rarement des PDF (plutôt des catalogues produits)

juliendubreuil · Août 3, 2014, 1:11

J’ai mis en place quelques web passer et après avoir benchmarké plusieurs solutions mon choix c’est arrêté sur Scrapy en Python. Bien documenté et efficace, il m’a permis de mettre en place un parsing des modules de drupal.org en version 7 de façon à récupérer toutes les versions/bug/issues/mainteneur des modules et d’en extraire tous les modules Drupal Commerce qui tourne toute les nuits

Merci pour les autres liens

LuStanislas · Août 8, 2014, 5:56

Je ne m’attendais pas à autant de réponses ! Merci beaucoup je vais potasser tout ça

foxmix7 · Août 11, 2014, 10:42

Rien de tel que développer soi-même, mais si non-dev et/ou besoin ponctuel, le soft to have c’est : http://scraper.rddz-tools.fr made in France et de loin le plus souple et user-friendly …

eon01 · Août 11, 2014, 11:41

Bonjour,

J’ai testé plusieurs langages/bibliothèques et finalement j’ai choisi python/urllib2 et beautifulsoup, c’est simple, rapide et efficace. python-goose pourrait être un complément aux derniers bibliothèques .

juliendubreuil · Août 11, 2014, 8:54

@eon01, j’avais testé Beautifulsoup pour faire un parser et au final j’ai utilisé Scrapy qui était plus performant en temps de traitement.

eon01 · Août 11, 2014, 9:11

@juliendubreuil Je dirais que pour créer un bot crawler, Scrapy est la meilleure solution (j’avais aussi développé mon bot avec), tandis que pour écrire un script qui ne fait que du scraping/parsing, BeautifulSoup est plus facile. Scrapy est tout un framework. Finalement, tout dépend du contexte et des résultats attendus, scrapy et BeautifulSoup sont tous les deux efficaces et bien documentés.

juliendubreuil · Août 11, 2014, 9:31

@eon01 effectivement je te rejoins sur ce point, pour quelques pages ça fait bien le boulot ! Tu as raison, comme bien souvent l’outil dépend du contexte.

romainbouic · Août 13, 2014, 11:44

+1 pour import.io

Edouard_Garret · Août 25, 2014, 6:20

Sinon, pour de l’email il y a Salesloft et ProspectAce. Le plus fiable pour l’email via LinkedIn et Google.

benjamin_bnds · Septembre 2, 2014, 9:30

Bonjour à tous,

J’ai une problématique avec le scrapping d’un site : les données qui m’intéressent sont appelées, par le site, côté client en ajax. Donc quand je souhaite récupérer les données côtés serveurs, elles ne sont pas présentent dans le code.

Connaissez-vous des solutions ?

mazoyerc · Septembre 17, 2014, 12:30

Hello,

Question de néophyte : Pourriez-vous m’expliquer concrètement ce qu’est le scraping et me donner quelques scénarios d’utilisation ?
D’avance merci

JosefDavid · Septembre 19, 2014, 4:45

Exemple:
tu veux récolter sur des sites web tous les mail sur les pages
donc tu lance ton script sur une liste de sites et il te récolte les mail dans une liste.

cebri · Septembre 19, 2014, 2:25

Pour extraire ponctuellement des données d’une page, l’extension « Scraper » sur Chrome est parfaite pour une page simple. Pour un site complet, iMacros est top.

Pour inclure les données dynamiquement dans un tableau pour analyser des données, rien de mieux que Google spreadsheet & importxml (j’ai écrit un tuto la dessus)

Pour inclure des données dans une application, Kimono ou Import.io sont les références.

mazoyerc · Octobre 2, 2014, 2:37

Bonjour,

J’ai identifié un forum dans lequel des internautes que je cible sont présents : 3w.dentalespace(dot)com/dentiste/forum (remplacer (dot) par . :))
Qui pourrait me conseiller et m’aider à scrapper ce site pour récolter les emails des membres ?
Avant de poser cette question j’ai testé différents outils recommandés dans ce fil, mais n’étant pas très « tech » j’ai pas franchement réussi à atteindre mon objectif

D’avance merci pour votre aide.

camille · Octobre 2, 2014, 3:01

Bonjour @mazoyerc,

Tu peux scraper uniquement ce que tu vois. En l’occurrence, les emails ne sont pas publics sur ce forum.

mazoyerc · Octobre 2, 2014, 3:18

Merci Camille. Je m’en doutais un peu mais bon
Sinon est-ce que je peux récolter toutes les adresses postales (visibles cette fois-ci) de ce site : http://www.ordre-chirurgiens-dentistes.fr/grand-public/votre-praticien-en-un-clic.html?id=264&tx_oncdpraticien_pi1[nom]=&tx_oncdpraticien_pi1[prenom]=&tx_oncdpraticien_pi1[rue]=&tx_oncdpraticien_pi1[ville]=&tx_oncdpraticien_pi1[cp]=&tx_oncdpraticien_pi1[departement]=0&tx_oncdpraticien_pi1[sexe]=0&tx_oncdpraticien_pi1[recherche]=rechercher

cebri · Octobre 6, 2014, 8:00

Dans ton cas, ca doit se faire en 2 étapes.

1. Extraire les liens vers les pages de détails
Utilises import.io (ou kimono), ils gérent la pagination et te permettront d’extraire l’ensemble des liens.

2. Extraire les adresses postales sur chaques pages de détails
Une seconde API import.io sur laquelle tu vas mettre en entrée la liste extraite en étape 1 et qui va extraire les adresses postales.

Ce sera le plus simple à mon avis: tu n’as besoin d’aucunes compétences techniques pour utiliser cet outils (contrairement à iMacros, qui pourrait aussi faire l’affaire)