Scraper des résultats de pages filtrées

Hello tout le monde :slightly_smiling_face:

J’ai une question technique : j’aimerais savoir comment faites-vous pour gérer les filtres pour scrapper des pages. C’est toujours face à cette difficulté que je me retrouve bloquée. Que ce soit en python, avec Octoparse ou webscraper.

Merci d’avance pour votre aide ! :slight_smile:

Mon idée est de filtrer les pages d’abord dans le navigateur et puis faire le scraping

Tout dépend de la manière dont fonctionne le « moteur de recherche ».
Les filtres se retrouvent quelques fois dans l’url, quelques fois dans les paramètres POST et d’autres fois dans les cookies par exemple…

Bonjour et merci pour la réponse :slight_smile:

Oui c’est ça, ça dépend et dans ce cas précis, c’est dans l’URL :
Agence immobilière Paris (75) | A Vendre A Louer

Un coup de pouce pour y arriver ? Merci !!!

Vous souhaitez obtenir les info des agences immobilières selon les villes, c’est les villes que vous voulez filtre ? Si oui, c’est facile, utiliser justement l’url et commencer votre scraping.

Dance ce cas précis, les filtres sont en quelque sorte cachés, il n’y a pas de listes de choix sur laquelle se baser. Une solution serait de se baser sur le sitemap du site, encore faut-il le trouver.
Dans ton cas, je ferais à la main les différentes régions pour avoir les url de base, et ensuite le scrap de toutes les page pour chacune.

Bonjour,

Oui, c’est bien ça, la ville que je souhaite :slight_smile:
Mais, ça me bloque à la page 1 :woman_shrugging:

Ok, je vais essayer ainsi.

Merci

image
Vous utilisez encore octoparse ? J’ai fait avec octoparse et je ne me vois bloqué par la page 1. Voilà mon workflow, et pour le bouton de pagination, le xpath est //*[@id=« pager-next »]/a . Si vous réessayez ?
image

1 « J'aime »

Super ! Merci beaucoup pour ton aide ! Ca a marché et j’ai réussi

Bonjour @Arnaud2017 :slight_smile: je me permets de revenir vers toi car en fait, ça ne fonctionne pas, je ne parviens pas à récupérer la data.

Le mode auto détection bloque à 84% et je ne sais pas pourquoi et quand je passe en manuel, ça ne me détecte pas non plus les textes :frowning:

Si tu as plus de détails à me fournir, je prends !! :wink:

Merci d’avance :slight_smile:

Cela m’arrive également que la détection auto bloque à 84%. Et je réessaie en le faisant manuellement, j’y parviens !
Créer tout d’abord une boucle pour extraire les URLs même si les textes ne sont pas bien détectés.
Récupérer les informations détaillées dans la page de détails.
Voilà mon flux de travail :