Comment créer un robot tout simple ?

Ainga · Novembre 13, 2016, 11:11

J’ai un fichier excel qui contient un grand nombre d’ URL d’annonces entre particulier (genre leboncoin ou pap).

J’aimerais vérifier en automatique que les annonces liés à ces URL sont toujours d’actualité.

Savez comment faire pour qu’un robot parcours mon fichier excel, visite les pages, et ajoute une donnée « annonce valide » ou « annonce invalide » en fonction du contenu de la page cible (si elle contient le texte « Cette annonce est désactivée » pour le bon coin par ex) ?

Quel outil pourrais me faire ça ?

ScrapingExpert · Novembre 13, 2016, 11:30

Hello,

La problématique principale est que chaque site d’annonce possède sa propre façon d’indiquer qu’une annonce n’est plus valide. Parfois cela peut être une simple page d’erreur « 404 Page not found », d’autre fois « Désolé mais cette annonce n’est plus valide », etc. Donc il faudra configurer l’outil pour qu’il gère chaque site de manière indépendante. Normalement ils sont censés renvoyer des codes HTTP 404, mais les normes sont rarement respectées…

Sinon, faire un tel outil est dans mes cordes, mais priorité aux outils gratuits qui existent peut être déjà, la communauté?

karni · Novembre 14, 2016, 9:02

Zennoposter ou Imacros. Le premier peut se telecharger (version demo mais qui fonctionne en partie) et le deuxième tu as une version gratuite en basique qui devrait faire l’affaire.

camille · Novembre 14, 2016, 9:07

Tu peux faire ça aussi avec un Google spreadsheet, avec la fonction importXML.

Grand nombre d’URL, peux-tu préciser, plus de 50K ?

Ainga · Novembre 15, 2016, 8:15

Oui, c’est tout à fait ça … C’est pour une agence immobilière. Donc, il y a juste 3 sites cible : PAP, entreparticulier et leboncoin.

Ainga · Novembre 15, 2016, 10:11

Au fait, j’y pense … ça ne serai pas plus simple de faire un petit développement en PHP. Je n’y connais rien , mais peut-être que quelqu’un pourrait m’aider ?

Ainga · Novembre 15, 2016, 10:11

Non pas tant que ça … c’est pour une agence immobilière, des annonces locales … donc quelques centaines … 500 maxi.

ScrapingExpert · Novembre 16, 2016, 11:20

Hello,

Effectivement, tu peux faire un script PHP avec une fonction utilisant CURL pour requêter les URLs des sites, utiliser des proxies pour éviter de te faire bloquer, un petit coup de QueryPath pour parser proprement les HTMLs et détecter les annonces obsolètes, et un coup de ParseCSV pour écrire les données dans un fichier CSV…

Jaune_Jaune · Novembre 19, 2016, 7:00

Si il n y a que trois site tu peux largement te débrouiller avec import xml /html de Google sheet. C’est pas des formules très compliqué et si il te renvoi une erreur c’est que l’annonce est supprimée.

Benoit2001 · Novembre 29, 2016, 9:35

Hello,

J’essaie de me mettre au Growth Hacking mais j’avoue galérer… J’aimerais extraire le nom des boîtes ainsi que que leur situation géographique dule site suivant : Trouver des Investisseurs - Réseau Financier Français mais je n’arrive pas à le faire à grande échelle.

J’ai essayé avec google sheet et la formule ImportXML mais cela ne marche pas et sur Import.io il ne scrape que 9 résultats (qui correspond au nombre d’affichage par page par défaut).

Quelqu’un aurait une solution pour que le résultat sur import.io soit plus important ? Ou un autre outil ?

ScrapingExpert · Novembre 29, 2016, 9:47

Hello Benoit,
Tu souhaites uniquement obtenir les noms de boite + leurs régions?

ScrapingExpert · Novembre 29, 2016, 10:05

Voici les données:
[Dropbox]

https://www.dropbox.com/s/bj2uf9j5r930ec4/reseaufinancierfrancais.com_dataset_2016-11-29.xlsx?dl=0

Données extraites via ma plateforme de scraping maison

Benoit2001 · Novembre 29, 2016, 3:34

Merci @ScrapingExpert c’est top mais dans l’idéal j’aurais aimé avoir une solution pour pouvoir l’utiliser sur plusieurs sites

ScrapingExpert · Novembre 29, 2016, 4:09

Malheureusement ce genre de solution toute faite n’existe pas…

Pour plusieurs raisons:

chaque site possède sa propre structure, qui est parfois amenée à changer en cours d’année, ce qui implique de mettre en oeuvre une config propre à chaque site.
chaque site utilise une techno web qui lui est propre, du coup les liens de type pagination ou fiche de contenu peuvent être statiques ou dynamiques, dans ce dernier cas gérés via des appels à fonctions Javascript non gérées par des outils tels que Import.io ou autre.

Grossomodo, il faudrait que, par exemple, je partage ma plateforme de scraping qui gère tous ces cas de figure. Ce qui deviendrait un sacré casse tête car mon interface est très orientée fonctionnel et « techos », et pas design pour un sous, ni intuitive

Benoit2001 · Novembre 29, 2016, 4:36

Ok je vois, merci quand même

ScrapingExpert · Novembre 29, 2016, 4:37

De rien Si besoin, à ta dispo pour toute demande de presta de ce type, ou simplement conseils/analyses.

thomas_piton · Décembre 2, 2016, 10:22

hello,

pour extraire des données facilement gratuitement

vous pouvez sélectionnez les données à extraire sur les écrans du site en cliquant
c’est super simple

possibilité de choisir la granularité de l’extraction

A+

Jaune_Jaune · Décembre 2, 2016, 10:22

Si tu es motivé pour apprendre à faire du scraping, dans l’ordre :

Apprendre a bien se servir de google spreadsheet et des fonctions importxml,data,html voir json.
Apprendre à se servir des outils types import.io
si ca marche toujours pas alors il te faudra apprendre a coder un minimum, soit phantom (js)ou Nokogiri (ruby) si page statique, watir selenium (ruby) page dynamique. De ce que je connais, c’est les plus facile d’accès

Jonathan

karni · Décembre 2, 2016, 1:12

J’ajouterai Zenno entre ton 2 et on 3 , plus exigeant que import.io sur la prise en main (mais plus souple) mais plus simple à maitriser qu’un langage à apprendre.

Jaune_Jaune · Décembre 2, 2016, 1:43

Merci @karni pour l’update