Scraper CCI

Bonjour à tous,
Je souhaite scrapper cette page: Liste des professionnels de l'immobilier | CCI - Chambre de commerce et d'industrie
J’ai utilisé octoparse dans un premier temps, et à partir d’un certain moment pendant le scrapping, la meme ligne continue à être scrappée indéfiniment, j’ai essayé de régler ce problème en vain
J’ai ensuite utilisé Web Scrapper qui ne me scrappe que les 160 premières lignes, alors que j’en ai 16000.
Je voulais donc savoir si quelqu’un a déjà rencontré ce genre de problème là, et comment vous faites pour y remédier, autrement, avez-vous d’autres outils de scrapping?
Merci

Encore un site web bien pourri codé par une entreprise éco +.

Merci au gouvernement et aux institutions publiques de fournir des sites web de cette qualité médiocre (visiblement ils ne connaissent pas les sélecteurs CSS parce que pour imbriquer des div dans des div sans mettre aucun sélecteur, il faut vraiment être incompétent).

Ah oui, on n’utilise pas la balise strong juste pour mettre en gras un résultat, on utilise du CSS (c’est fait pour ça ).

4 « J'aime »

Bonjour @radia1

  1. Pour Octoparse, je pense…cela peut-être un problème avec xpath ou la pagination? Vous pouvez utiliser Google extension Xpath Helper pour vérifiez les Xpath. Une autre solution plus simple : envoyer un e-mail avec votre fichier otd à l’équipe support? J’avais l’habitude de faire ça quand je ne savais pas comment modifier Xpath :sweat_smile: Je crois que c’est gratuit.

  2. Pour Web Scraper, c’est toujour comme Ça. Je ne recommande pas de l’utiliser pour collecter de grandes quantités de données.

  3. Si vous avez un gros budget, vous pouvez aussi voir Mozenda…ou Apify si vous codez

1 « J'aime »

Voulez-vous scraper cette page :point_down:?

Je dois dire que ce site est vraiment …mal fait…pas joli…tout en mess

Hello Radia,

J’ai tout scrappé il y a quelques semaines (déclarations d’activité + attestations). C’est pas le plus simple, je te l’accorde tellement c’est mal codé, mais ça se fait.

Je suis passé par Zenno pour info :wink:

2 « J'aime »

Bonjour à tous,
Tout d’abord merci d’avoir prit le temps de répondre!
Malgré la qualité du code de ce site, je dois le scrapper que ce soit en python ou grace a un