Outils de scraping des sites français d'annonces immobilières

Hello la com ! :wave:

J’ai développé des outils de scraping No-Code pour les sites immobiliers français les plus populaires (et j’enrichis continuellement la liste des sites supportés).

Deux options sont disponibles :

  • Annonce directe : saisissez l’URL d’une annonce et recevez ses données structurées.
  • Page de recherche : saisissez le lien d’une page de recherche avec les filtres appliqués et recevez les données des annonces structurées (avec en option un mode Delta qui retourne uniquement les nouvelles annonces et/ou celles supprimées).

Sites actuellement pris en charge :

  • SeLoger
  • Logic-Immo
  • PAP fr
  • Le Figaro Immo
  • Bien’ici (actuellement, seul le scraping des pages de recherche est pris en charge).

Vous êtes curieux ? Découvrez-les ici :point_right: azzouzana (Azzouzana) · Apify

N’hésitez pas à me contacter pour plus d’informations, retours ou questions !

1 « J'aime »

Ça semble intéressant.
Un peu à la Fluximmo ?
J’ai vu les exemples d’output pour les données d’une annonce, mais ça me semble pas exhaustif, et j’ai plein de questions :

  • tu as une property coordinates, mais est-ce rempli et est-ce fiable ?
  • sur la property schools : c’est toi qui fait l’enrichissement ?
  • priceVariations : remonte combien de temps en arrière ?
  • pas de data sur l’annonceur ?
  • pas de data sur les équipements (piscine, spa, garage, surface du terrain…), sur le type de bien, le DPE etc…

Merci Morph pour ton feedback et tes questions.

La qualité des données dépend du site cible et de sa popularité vs effort (Notamment, pour le cas d’une recherche sur SeLoger, il y a un flag qui force l’acteur à scraper les pages d’annonces en détail au lieu de se contenter des résultats affichés sur la page de listing)

  • Tu as une propriété coordinates, mais est-elle remplie et fiable ?
    Les coordonnées sont celles exposées par le site. Je les retourne uniquement si elles existent.
  • Sur la propriété schools : c’est toi qui fais l’enrichissement ?
    Non, c’est le site qui expose cette information. Je les retourne si elles sont disponibles.
  • Pas de données sur l’annonceur ?
    Quel acteur/site ? Peux-tu préciser ? Cela devrait normalement exister, mais les captures d’écran des outputs ne sont pas exhaustives.
  • PriceVariations : ça remonte combien de temps en arrière ?
    C’est une information exposée par le site (bien qu’elle soit cachée). Je n’ai pas de réponse précise à cette question.
  • Pas de données sur les équipements (piscine, spa, garage, surface du terrain…), sur le type de bien, le DPE, etc. ?
    Ces données sont retournées si elles sont disponibles. Pour SeLoger, si l’information que vous cherchez est manquante, vous devez activer le mode Deep Scrape.

Vous pouvez les tester gratuitement pendant 3 jours (aucune carte de crédit n’est nécessaire).

Voici le scraping de https://www.seloger.com/list.htm?projects=2&types=2,1&places=[{%22inseeCodes%22:[150014]}]&surface=NaN/20&mandatorycommodities=0&privateseller=0&enterprise=0&qsVersion=1.0&m=search_refine-redirection-search_results

avec deep scraping disabled:
https://api.apify.com/v2/datasets/jqGuUQScf4zdBRxjQ/items?clean=true&format=json&limit=1000
avec deep scraping enabled:
https://api.apify.com/v2/datasets/4hrDuRIJx3fWivbRQ/items?clean=true&format=json&limit=1000

Merci pour les réponses @Azzouz , hyper intéressant.
Je ne savais pas qu’autant de données étaient accessibles pour une annonce Seloger !

Sur les coordonnées : j’ai vu d’où ça vient (calcul du temps de trajet), c’est assez paradoxal car l’adresse n’est pas publiée en clair. Je suppose donc que les coordonnées ne sont pas précises exactement…

Par annonceur, je voulais dire celui qui publie l’annonce, j’ai vu ensuite la property publisher qui est bien renseignée

PriceVariations : vu dans ton exemple, merci, c’est clair !

Avec le le mode Deep Scrape, vu, c’est très riche en données.

Merci Morph,

De quelles coordonnées parle-t-on ? Celles de l’annonce ou d’autres données de dailyLife ? Si ce sont les coordonnées de l’annonce, elles possèdent un attribut accuracy qui indique leur précision.

Concernant la richesse des données de SeLoger, ces données ne sont pas disponibles publiquement pour être collectées. Cela nécessiterait un :man_detective: :smiling_imp:

oui, oui, je parlais bien de ça :

  "coordinates": {
    "accuracy": 2,
    "latitude": 44.92436,
    "longitude": 2.43708
  },

Que veux-tu dire par la ? Celles retournées par l’API sont bien disponibles publiquement.
Tu parles d’autres données ?

Pour les coordonnées, l’attribut « accuracy » indique la précision. L’adresse du bien est disponible dans le champ « locality ».

Je voulais dire qu’il n’existe pas d’API publique SeLoger pour toutes ces données riches, mais j’ai réussi à identifier une source cachée

Pas l’adresse exacte, juste CP et ville…
Normalement latitude et longitude c’est plus précis (même qu’une adresse complète), mais il faut que ça soit les bons :wink:

Ok, je comprends, merci.

1 « J'aime »