Outils de Scraping ?

Dans ce cas il faut utiliser des solutions plus puissantes et faire appel à un développeur, par exemple avec des frameworks tels que casperJS ou selenium, qui se comportent comme un vrai navigateur et déclenchent tous les appels ajax.

Bonjour,

C’est clair, ça va à l’encontre des CGU de Leboncoin.

Bien souvent, avec le JS on a tendance à vouloir sortir l’artillerie lourde. Inutile dans ce cas.
Il suffit de vérifier les appels réseaux. C’est tout à fait gérable avec un scraper qui n’interprète pas le JS.

Le seul HIC, c’est le numéro généré au format GIF.

Donc là, faut sortir l’artillerie ===> OCR

En effet, il faut faire appel à un dev.

Bonjour,
personne n’a encore évoqué Mozenda qui a plusieurs avantages : gestion des javascripts, des page-list, anonymisation des crawls, mise en place de temps de pause aléatoires, extraction de tableaux, requêtes en boucle pour enrichissement des données, API, etc.

1 « J'aime »

Bonjour
Sauriez vous où est-ce que l’on peux trouver des tutoriels pour utiliser iMacros ?
Merci beaucoup

Bonjour,

J’ai une liste de plusieurs sites web dont je souhaiterai extraire les adresses mail. Si je dois le faire manuellement et un site après l’autre, ca me prendrait énormément de temps. Vous n’avez pas un outil qui me permettrai de faire ca plus rapidement ?

Merci d’avance.

1 « J'aime »

je découvre un nouveau venu dans la famille des scrapper
https://etools.io/

avantage, possibilité de cibler les sites par typologie et type de service

2 « J'aime »

hello, un petit nouveau : https://phantombuster.com/cloud-services?referral=growthhacking-5VaJxDdpb

2 « J'aime »

Je m’amuse bien sur Apifier :slight_smile:

1 « J'aime »

Bizarre… Personne ne parle de Zennoposter. C’est dommage !

4 « J'aime »

De loin le meilleur pour qui sait le maîtriser.

Un nouvel outil parmi les scrapers : http://hurryscrap.com :wink:

Bonjour! Je suis dev et je cherche justement le meilleur outil (pour dev) de scraping. Je suis tombé sur Apifier et PhantomBuster mais les deux me semblent très intéressants… Les avez-vous comparé?

1 « J'aime »

Je pense que les fondateurs de PhantomBuster seraient plus à même de répondre à cette question.

Pour le peu que j’ai pu comprendre, je dirais que d’un point de vue purement dev, sur Apifier tu écris tes bots en Javascript pur, en travaillant au sein même du DOM des pages, alors qu’avec PhantomBuster tu écris du Javascript dans le cadre de scripts PhantomJS/CasperJS, ce qui te permet dans ce cas de manipuler le headless browser + le DOM des pages via Javascript natif.

Les deux sont des gestionnaires de bots, j’imagine qu’il doit y avoir pas mal de fonctionnalités similaires, ce qui nous amène à la question du comparatif des tarifs. Apifier semble abordable, par contre de l’autre coté aucune donnée de prix n’est dispo publiquement.

1 « J'aime »

Merci beaucoup pour ta réponse. J’ai à peu près compris la même chpse entre Apifier et PB. Mes bots devront passer par plusieurs pages (page de login, confirmation, aller à l’information recherchée via URL ou Click) donc PB a l’air un peu plus apte à cela que Apifier (qui comme tu dis s’execute directement dans le contexte d’une page)
Merci en tout cas ScrapingExpert, tu portes bien ton nom.

Par contre, entre nous, je ne suis pas du tout convaincu de la pertinence de ces outils.

Je m’explique, si tu es un dev et tech’os, tu sais mettre les mains dans le cambouis, tu sais programmer un rapide gestionnaire de lanceur de bots, tu n’as pas besoin d’une solution payante pour déployer tes bots. Et vu leur pricing (pour celui non affiché), de ce que j’ai entendu, il est très salé. Je pense que leurs cibles c’est davantage des grosses boîtes avec un gros budget.

Mais bien évidemment, ce n’est que mon avis :slight_smile:

Sinon, si tu fais du CasperJS et que tu souhaites gagner du temps pour tout ce qui est automatisation de login, confirmation, aller à l’information recherchée via URL ou Click , j’ai dev une lib, une sorte de wrapper, GhostJS, dispo sur Bitbucket.

1 « J'aime »

Est voici un nouveau né qui défonce la concurrence et c’est une solution totalement gratuite. Une sorte de Zenno Clone !

https://bablosoft.com/shop/BrowserAutomationStudio

Poke @Camille

2 « J'aime »

Intéressant, il y a https://www.datascraping.co/ dans le même genre.

1 « J'aime »

merci @ScrapingExpert pour l’instant je ne fais que me renseigner, mais merci pour tes bons conseils
j’irais faire un tour sur GhostJS.
quant à ton avis sur le fait de mettre les mains dans le cambouis… tu as probablement raison mais je suis dev « redébutant », ça fait quelques années que j’ai pas fait de dev et je vais m’y replonger… du coup je cherche pas forcément à mettre les mains dans tous les types de cambouis, je veux pas non plus trop me compliquer la tâche.
je verrais avec Phantom Buster leurs prix, ce qui est sûr c’est que je compte pas dépenser beaucoup, les prix d’Apifier me paraissaient abordables mais ils ne remplissent pas exactement mon usecase.

Salut Nicolas

Si jamais tu cherches une formation sur PhantomBuster : j’ai ce qu’il te faut, une formation qui te fais apprendre Jquery / Phantomjs / Nodejs / Nick (le module maison) en seulement 2 HEURES :joy: . Blague à part c’est totalement vrai : mp si tu veux.

Niveau prix Phantombuster est quasi Gratuit (tant que tu dépasses pas un certain volume de requêtes, en tant que personne seule t’as large avant d’avoir a payer).

1 « J'aime »