Scraping annonces immobilières

Bonjour,

Je relance un vieux sujet car je ne trouve pas de solution qui réponde à mon besoin sur le sujet …

Je cherche un moyen de scraper toutes les annonces immobilières d’une ville donnée sur certains sites phares comme seloger, leboncoin, logic-immo. J’ai trouvé des prestataires qui font cela (melo par exemple), mais pas qui fournit la donnée de localisation des annonces (le quartier qui figure dans l’annonce, souvent plus précis que simplement la ville).

Auriez-vous connaissance d’une telle solution à prix raisonnable ? (je n’ai pas beaucoup de volumes à court terme donc il me faut une solution scalable donc pas à plusieurs centaines d’euros par mois …).

merci d’avance !
Alex

Hello! moteur immo a une API avec un prix raisonnable.

Bonjour,

merci pour votre retour. Effectivement j’ai déjà regardé leur solution. Mais l’API ne fournit pas la localisation des annonces sous forme de polygone geojson (celle que vous retrouvez par exemple dans « découvrir le quartier » sur une annonce seloger). Pour mes clients, j’ai besoin de cette localisation plus précise (même si imparfaite).

Bien à vous

Salut
BOnne année 2024
J’ai découvert ce site Moteur'Immo - Moteur de recherche d'annonces immobilières en France, cela me semble intéressant, mais sans la géoloc précise du bien, c’est trop pauvre
Je te mets un lien vers un échantillon d’annonces que j’extraie toutes les semaines:
ventes du 68

C’est ça qui t’intéresse ?

Bonjour,

Excellente année à vous aussi !

Oui c’est bien ça qui m’intéresse, mais avec les zones géographiques en polygones qui sont présentes dans les annonces. Par exemple sur seloger, on trouve ce polygone sur la carte dans « Découvrir le quartier » sur l’url :
https://www.seloger.com/annonces/achat/appartement/rennes-35/atalante-beaulieu/213282953.htm.

Comment extrayez-vous l’information : via l’API ? A quel coût ?

merci d’avance,
Alex

As-tu essayé d’analyser les requêtes entre SeLoger et Mapbox ?

Cher guinaude
Entre scrapers bienveillants on peut se tutoyer
J’ai réalisé qlqs dataviz avec les polygones seloger, ils étaient bien présents dans le listing des annonces, mais après analyse, ils n’ont pas de correspondance avec le référentiel des quartiers de l’insee, les iris, qui eux sont plus fins et plus nombreux
Donc le découpage seloger est interne à ce portail, n’est compatible ni avec l’insee, ni d’autre sites immobiliers
Cela bloque toute consolidation de données venant de différents portails, et surtout toute analyse croisée avec de données économiques, socio-démographiques, de commerces et services…si tu veux des synthèses à la maille des quartiers
Je te recommande d’utiliser les coordonnées gps des annonces pour reconstruire les « vrais » quartiers, ceux de l’insee:
-télécharge le geojson/.shape des iris
-lance geopandas
-importe tes annonces + le geojson, et fait une jointure spatiale (sjoin) pour déterminer à quel iris appartient quelle annonce

Pour ma base, je ne vois pas de quelle api tu parles
J’ai développé mes propres programmes d’extraction, selon les portails ça se branche au html, ou à l’api interne qui alimente la page html après son chargement
J’ai laissé tomber seloger, trop peu d’annonces avec des géolocs, html bazar et captchas trop agressives

Peux tu nous parler un peu plus de ton projet ?

Bien cordialement
Klop

Cher Klop,

Merci d’avoir pris le temps de me répondre.

Je parviens sans problème à scraper moi-même toutes les infos (y compris les polygones) dont j’ai besoin depuis les sites immobiliers majeurs, mais ma solution manuelle doit être maintenue et surtout, elle n’est pas « scalable ». Pour des petits volumes, ça fonctionne mais pour de grands volumes (plusieurs dizaines de milliers d’annonces par jour), le coût et le délai vont exploser car je paie un proxy à la requête (cpm de 6$) et les requêtes sont lentes. C’est pour ça que je recherche une solution de type API sur des bases déjà construites (moteurimmo, melo.io, fluximmo …) qui récupérerait aussi les zones polygones et quartiers dont j’ai besoin. L’idéal étant une solution « solide » que je puisse requêter facilement à coup de milliers d’annonces pour un coup croissant au volume (cappé).

Est ce que vous (ou nos amis lecteurs de ce poste !) voyez quelque chose qui pourrait correspondre ?

Bien à vous,
Alex

BOnjour,
Pardon pour la réponse tardive
j’avais compris que tu ne savais pas récupérer les polygones des quartiers, d’où mes explications

plus largement, si tu as les compétences techniques et le temps, et que cela est central pour ton business, développe toi même la solution, c la voie la plus solide.
sinon, il faudra payer, mais là je ne sais pas te conseiller

me concernant, je fais 30k à 50k annonces en 12h, donc des milliers par heure
il faut trouver les bons proxies, déjouer les mesures, contrôler le flux, stocker en base … mais c possible, et sans payer un euro en abonnements divers et variés
la contre partie est un temps considérable en dév,