Scraper des résultats de pages filtrées

MarieGainche · Juin 18, 2023, 7:52

Hello tout le monde

J’ai une question technique : j’aimerais savoir comment faites-vous pour gérer les filtres pour scrapper des pages. C’est toujours face à cette difficulté que je me retrouve bloquée. Que ce soit en python, avec Octoparse ou webscraper.

Merci d’avance pour votre aide !

Arnaud2017 · Juin 19, 2023, 6:24

Mon idée est de filtrer les pages d’abord dans le navigateur et puis faire le scraping

Morph · Juin 23, 2023, 11:35

Tout dépend de la manière dont fonctionne le « moteur de recherche ».
Les filtres se retrouvent quelques fois dans l’url, quelques fois dans les paramètres POST et d’autres fois dans les cookies par exemple…

MarieGainche · Juin 24, 2023, 7:17

Bonjour et merci pour la réponse

Oui c’est ça, ça dépend et dans ce cas précis, c’est dans l’URL :
Agence immobilière Paris (75) | A Vendre A Louer

Un coup de pouce pour y arriver ? Merci !!!

Arnaud2017 · Juin 26, 2023, 7:55

Vous souhaitez obtenir les info des agences immobilières selon les villes, c’est les villes que vous voulez filtre ? Si oui, c’est facile, utiliser justement l’url et commencer votre scraping.

Morph · Juin 26, 2023, 2:12

Dance ce cas précis, les filtres sont en quelque sorte cachés, il n’y a pas de listes de choix sur laquelle se baser. Une solution serait de se baser sur le sitemap du site, encore faut-il le trouver.
Dans ton cas, je ferais à la main les différentes régions pour avoir les url de base, et ensuite le scrap de toutes les page pour chacune.

MarieGainche · Juillet 2, 2023, 8:01

Bonjour,

Oui, c’est bien ça, la ville que je souhaite
Mais, ça me bloque à la page 1

MarieGainche · Juillet 2, 2023, 8:02

Ok, je vais essayer ainsi.

Merci

Arnaud2017 · Juillet 3, 2023, 2:24

Vous utilisez encore octoparse ? J’ai fait avec octoparse et je ne me vois bloqué par la page 1. Voilà mon workflow, et pour le bouton de pagination, le xpath est //*[@id=« pager-next »]/a . Si vous réessayez ?

MarieGainche · Juillet 9, 2023, 6:25

Super ! Merci beaucoup pour ton aide ! Ca a marché et j’ai réussi

MarieGainche · Août 3, 2023, 12:26

Bonjour @Arnaud2017 je me permets de revenir vers toi car en fait, ça ne fonctionne pas, je ne parviens pas à récupérer la data.

Le mode auto détection bloque à 84% et je ne sais pas pourquoi et quand je passe en manuel, ça ne me détecte pas non plus les textes

Si tu as plus de détails à me fournir, je prends !!

Merci d’avance

Arnaud2017 · Août 8, 2023, 4:21

Cela m’arrive également que la détection auto bloque à 84%. Et je réessaie en le faisant manuellement, j’y parviens !
Créer tout d’abord une boucle pour extraire les URLs même si les textes ne sont pas bien détectés.
Récupérer les informations détaillées dans la page de détails.
Voilà mon flux de travail :