Scraping site VL

Bidibule · Mars 19, 2019, 10:48

Bonjour,
Je cherche à scraper vlimmo.com
Et plus précisément les pages accessibles par
https://www.vlimmo.fr/VLIMMO_SITE_WEB/FR/liste-tribunaux-grande-instance.awp
Comme par exemple
https://www.vlimmo.fr/VLIMMO_SITE_WEB/FR/tribunal-grande-instance/bobigny.awp

Sur chaque page on y trouve des liens d’annonces et le détail d’une annonce.
J’ai essayé avec webscraper.io et dataminer mais je sèche.
Quelqu’un aurait-il une idée pour m’aider à avancer ?

Merci beaucoup

ScrapingExpert · Mars 19, 2019, 1:16

Hello,

Peux-tu donner un peu plus d’explications concernant ton blocage?

Dataminer.io peut faire le job si tu découpe le process en deux:

Récupération des liens des annonces → obtention d’un CSV contenant ces liens
Récupération des données des annonces à partir du CSV précédent

A noter qu’il faudra la version payante si tu as plus de 500 pages à traiter

Bidibule · Mars 20, 2019, 4:01

Bonjour,
Merci @ScrapingExpert te t’intéresser à mon pb
Le principal problème réside dans la façon dont le code html/css est structuré.
Dataminer n’arrive pas ou peu à récupérer les informations de manière structurée.
Même en allant creuser dans le code « à la main » je n’ai quasiment pas trouvé de classe ou d’id qui permette de récupérer les informations.

ScrapingExpert · Mars 20, 2019, 4:23

Il y a possibilité de trouver d’autres attributs ou balises sur lesquels se baser pour faire le job
Mais le mieux à faire, c’est de passer par les sélecteurs XPath et non CSS, car les XPaths et permettent de remonter dans l’arbre du DOM, ou de revenir sur des siblings qui précèdent la node que tu cibles en premier lieu. Beaucoup plus puissants et flexibles donc.

drumsgreen · Mars 25, 2019, 4:34

Désolé mais ce n’est vraiment pas malin de poster ce type de message avec ton identité.

Le scrapping ds 90% du temps viole les CGU.

Ce forum est connu, des outils marketing de veille existe, ca va pas être difficile de trouver ton post pour cette boite.

C’est un conseil.