scraper IAD avec web scraper

Pims · Novembre 25, 2021, 8:04

Bonsoir,
j’essaie de scraper le nom et les coordonnées des conseillers IAD avec web scraper mais je rencontre un problème avec la pagination. Le problème est qu’il n’y a pas de pages mais un chargement avec le bouton « voir plus »

j’ai donc testé le type « Element click » Capture d’écran 2021-11-25 180055

Mais je n’arrive pas à prendre d’information sur la page le sélecteur indique « Parent does not contain selected element »
J’ai déjà scrapé plusieurs site mais je ne suis jamais tombée sur une page qui n’affiche pas tout et qui doit charger les informations.
Quelqu’un a-t-il une solution pour contourner le problème ?
Merci

ClementAubry · Novembre 26, 2021, 12:26

Hello @Pims,

Ça fait un moment que je n’ai pas utilisé webscraper.io, en particlier le Element click : tu as vérifié que tu l’avais bien paramétré avec la documentation ?

Sinon, tu as directement l’URL de ~13,700 conseillers sur le sitemap, ça devrait t’éviter de passer par le moteur de recherche

alexandre-chirie · Novembre 26, 2021, 2:02

Hello @Pims !

Généralement dans ce cas tu peux trouver la donnée dans le code JS quand il y a un affichage « customisable » du type « voir plus » (c’est aussi le cas pour certaine pagination).

ça se fait bien en python, je ne saurais pas te dire ce que ça donne sur webscraper par contre…

L’astuce de @ClementAubry est très bonne sinon : j’imagine que le format de l’adresse mail est toujours le même pour ces personnes… Le tour est joué ^^

TitanX · Novembre 26, 2021, 2:41

En fait j’ai essayé de scraper les données hier soir en Python en interrogeant l’API qui renvoie les données en JSON (enfin du HTML dans du JSON).

Au bout de 244 requêtes le programme plante (ou plutôt le serveur pour être exact) car l’URL devient trop longue (plus de 8000 caractères) car les ids de tous les conseillers déjà renvoyés par l’API sont ajoutés dans un paramètre de l’URL ignore_ids pour ne pas renvoyer les conseillers de nouveau (le site renvoie les conseillers dans un ordre aléatoire pour ne pas favoriser des conseillers qui seraient toujours en première page).

Du coup, j’ai pensé à réinitialiser l’URL au bout de 200 requêtes pour éviter d’envoyer au serveur une URL trop longue mais le site, je pense, stocke dans un cache les pages renvoyées à un client durant un certain délai donc il me renvoyait toujours les pages déjà scrapées (il fallait attendre plusieurs minutes pour avoir de nouvelles données).

L’avantage de cette méthode c’est qu’on avait 6 conseillers par requête.

Avec la solution de la sitemap c’est 1 requête = 1 conseiller. C’est plus long mais ça fonctionne bien (et plus simple à implémenter également).

Pims · Novembre 26, 2021, 4:04

Merci pour toutes vos réponses

Effectivement je pensais utiliser le sitemap qui réglerai ce problème.
Je suis débutante et j’ai cherché des tutos avec des outils no code. J’en ai trouvé un avec Parsehub mais impossible de le paramétrer correctement. Je vais profiter de ce week-end pour farfouiller un peu mieux dans les paramètres

En récupérant à l’aide du sitemap toutes les urls des conseillers, est-il possible de trouver une solution no code qui ouvre chaque lien et récupérer les infos que l’on souhaite avec un outil no code ? Si oui, avez-vous un tuto ou bien des conseils, je prends tout

Je suis persuadée que ça ne doit pas être très compliqué mais comme débutante difficile de trouver le bon chemin !

Merci d’avoir pris le temps de me répondre et j’espère vous lire bientôt

TitanX · Novembre 26, 2021, 4:31

Si vous n’y arrivez pas j’ai tout téléchargé ce matin donc go MP au pire (13750 résultats).

pinoulechat · Novembre 28, 2021, 7:14

Bonjour,

Sur quel site de recherche tu va pour avoir tous les contacts de conseiller immobiliers ?

Pims · Novembre 29, 2021, 1:51

Sur ce site mais vu qu’il faudrait faire région par région en utilisant le sitemap c’est plus facile https://www.iadfrance.fr/sitemap/fr/agents.xml
J’ai scrapé d’autres sites moins difficiles comme capi, safti, optimhome…

yarek · Novembre 29, 2021, 8:08

Regarde la requête dans l’inspecteur réseau
C’est du style
https://www.iadfrance.fr/trouver-un-conseiller/lille?postcode_group=Lille_59&location=lille&ignore_ids=4838-14488-5892-8787-10130-4361&page=2

YAKA changer le paramètre page

Pims · Novembre 29, 2021, 9:55

Si seulement je savais comment changer une requête ! J’ai des notions de bases en programmation mais c’est vraiment basique. Je pensais me mettre à python mais je manque de temps

Pims · Novembre 30, 2021, 3:19

merci yarek mais titan XR a déjà fait le travail
J’ai réussi également à le faire mais très laborieusement…
Bonne journée

JeanMassonnet · Juillet 22, 2022, 2:27

Bonjour, je serai intéressé pour savoir comment tu as fait, j’essaye à partir du site map avec différents outils comme Bardeen, mais je n’y arrive pas… Je voulais tout essayer avant de demander mais je suis plus capable ^^
Est-ce que tu peux me donner des pistes sur la marche à suivre ?

Belle journée à toi

Pims · Juillet 22, 2022, 3:03

J’ai galéré avec webscsaper.io pour finalement trouver la solution mais titan XR a fait le travail plus vite et proprement, je t’envoie un mp

fabsolute · Juillet 30, 2022, 2:49

Je suis intéressé également

emvee · Octobre 25, 2022, 2:03

Bonjour @Pims ou @TitanX je suis intéressé également

J’ai testé la méthode sitemap.xml, mais il manque visiblement certains conseillers.

Et @Pims également intéressé de savoir comment tu as fait pour les autres sites

Kevin-Zimmermann · Octobre 25, 2022, 4:16

Hello @Pims et @TitanX, je suis intéressé moi aussi

josselin · Octobre 25, 2022, 4:45

@Kevin-Zimmermann j’éspère que tu blagues on va le prendre mal

Kevin-Zimmermann · Octobre 25, 2022, 4:59

J’aurais dû te demander c’est ça ?
J’ai vu que @TitanX l’a déjà fait

josselin · Octobre 25, 2022, 5:20

Beh oui… je suis bientôt à 50k annonces immo/j, je vais devenir le nouveau el pablo du scraping

djang0 · Octobre 30, 2022, 6:06

j’avais fait un script pour scrapper iad et bsk, je peux te fournir les datas