scraper IAD avec web scraper

Bonsoir,
j’essaie de scraper le nom et les coordonnées des conseillers IAD avec web scraper mais je rencontre un problème avec la pagination. Le problème est qu’il n’y a pas de pages mais un chargement avec le bouton « voir plus »


j’ai donc testé le type « Element click » Capture d’écran 2021-11-25 180055
Mais je n’arrive pas à prendre d’information sur la page le sélecteur indique « Parent does not contain selected element »
J’ai déjà scrapé plusieurs site mais je ne suis jamais tombée sur une page qui n’affiche pas tout et qui doit charger les informations.
Quelqu’un a-t-il une solution pour contourner le problème ?
Merci :slight_smile:

Hello @Pims,

Ça fait un moment que je n’ai pas utilisé webscraper.io, en particlier le Element click : tu as vérifié que tu l’avais bien paramétré avec la documentation ?

Sinon, tu as directement l’URL de ~13,700 conseillers sur le sitemap, ça devrait t’éviter de passer par le moteur de recherche :sunglasses:

Hello @Pims !

Généralement dans ce cas tu peux trouver la donnée dans le code JS quand il y a un affichage « customisable » du type « voir plus » (c’est aussi le cas pour certaine pagination).

ça se fait bien en python, je ne saurais pas te dire ce que ça donne sur webscraper par contre…

L’astuce de @ClementAubry est très bonne sinon : j’imagine que le format de l’adresse mail est toujours le même pour ces personnes… Le tour est joué ^^

En fait j’ai essayé de scraper les données hier soir en Python en interrogeant l’API qui renvoie les données en JSON (enfin du HTML dans du JSON).

Au bout de 244 requêtes le programme plante (ou plutôt le serveur pour être exact) car l’URL devient trop longue (plus de 8000 caractères) car les ids de tous les conseillers déjà renvoyés par l’API sont ajoutés dans un paramètre de l’URL ignore_ids pour ne pas renvoyer les conseillers de nouveau (le site renvoie les conseillers dans un ordre aléatoire pour ne pas favoriser des conseillers qui seraient toujours en première page).

Du coup, j’ai pensé à réinitialiser l’URL au bout de 200 requêtes pour éviter d’envoyer au serveur une URL trop longue mais le site, je pense, stocke dans un cache les pages renvoyées à un client durant un certain délai donc il me renvoyait toujours les pages déjà scrapées (il fallait attendre plusieurs minutes pour avoir de nouvelles données).

L’avantage de cette méthode c’est qu’on avait 6 conseillers par requête.

Avec la solution de la sitemap c’est 1 requête = 1 conseiller. C’est plus long mais ça fonctionne bien (et plus simple à implémenter également).

1 « J'aime »

Merci pour toutes vos réponses :slight_smile:

Effectivement je pensais utiliser le sitemap qui réglerai ce problème.
Je suis débutante et j’ai cherché des tutos avec des outils no code. J’en ai trouvé un avec Parsehub mais impossible de le paramétrer correctement. Je vais profiter de ce week-end pour farfouiller un peu mieux dans les paramètres :thinking:

En récupérant à l’aide du sitemap toutes les urls des conseillers, est-il possible de trouver une solution no code qui ouvre chaque lien et récupérer les infos que l’on souhaite avec un outil no code ? Si oui, avez-vous un tuto ou bien des conseils, je prends tout :crossed_fingers:

Je suis persuadée que ça ne doit pas être très compliqué mais comme débutante difficile de trouver le bon chemin !

Merci d’avoir pris le temps de me répondre et j’espère vous lire bientôt :slight_smile:

Si vous n’y arrivez pas j’ai tout téléchargé ce matin donc go MP au pire (13750 résultats).

4 « J'aime »

Bonjour,

Sur quel site de recherche tu va pour avoir tous les contacts de conseiller immobiliers ?

Sur ce site mais vu qu’il faudrait faire région par région en utilisant le sitemap c’est plus facile https://www.iadfrance.fr/sitemap/fr/agents.xml
J’ai scrapé d’autres sites moins difficiles comme capi, safti, optimhome…

Regarde la requête dans l’inspecteur réseau
C’est du style
https://www.iadfrance.fr/trouver-un-conseiller/lille?postcode_group=Lille_59&location=lille&ignore_ids=4838-14488-5892-8787-10130-4361&page=2

YAKA changer le paramètre page

Si seulement je savais comment changer une requête ! J’ai des notions de bases en programmation mais c’est vraiment basique. Je pensais me mettre à python mais je manque de temps :upside_down_face:

merci yarek mais titan XR a déjà fait le travail :slight_smile:
J’ai réussi également à le faire mais très laborieusement…
Bonne journée :slight_smile:

Bonjour, je serai intéressé pour savoir comment tu as fait, j’essaye à partir du site map avec différents outils comme Bardeen, mais je n’y arrive pas… Je voulais tout essayer avant de demander mais je suis plus capable ^^
Est-ce que tu peux me donner des pistes sur la marche à suivre ?

Belle journée à toi

J’ai galéré avec webscsaper.io pour finalement trouver la solution mais titan XR a fait le travail plus vite et proprement, je t’envoie un mp :slight_smile:

Je suis intéressé également :slight_smile:

Bonjour @Pims ou @TitanX je suis intéressé également :slight_smile:

J’ai testé la méthode sitemap.xml, mais il manque visiblement certains conseillers.

Et @Pims également intéressé de savoir comment tu as fait pour les autres sites :wink:

Hello @Pims et @TitanX, je suis intéressé moi aussi :blush:

@Kevin-Zimmermann j’éspère que tu blagues on va le prendre mal

J’aurais dû te demander c’est ça ? :joy:
J’ai vu que @TitanX l’a déjà fait :grin:

Beh oui… je suis bientôt à 50k annonces immo/j, je vais devenir le nouveau el pablo du scraping :face_with_peeking_eye:

2 « J'aime »

:wave: j’avais fait un script pour scrapper iad et bsk, je peux te fournir les datas :+1:

2 « J'aime »