Scraping SeLoger

Le résultat qui semble etre « crypté » est probablement l’html de la page « Il semble que vous êtes nombreux à vous connecter depuis ce réseau … ». Essaie avec un proxy, j’ai réussi à obtenir une réponse de cet endpoint.
Par contre, est-ce que quelqu’un a trouvé un endpoint pour obtenir les détails d’une annonce à partir de son ID?

C’est assez simple
Il suffit de supprimer les ressources entre /annonces/ et l’id de l’annonce

Exemple :
L’url indiquée par le site pour l’annonce id 154013845 est :

https://www.seloger.com/annonces/achat/appartement/meudon-92/bas-meudon/154013845.htm

Elle est aussi accessible via :

https://www.seloger.com/annonces/154013845.htm

@tienef j’obtiens 404 avec un GET, t’as envoyé une requête particulière? Je cherche un endpoint qui retourne un JSON avec les détails d’une annonce

L’annonce que j’avais mis en exemple a été retirée, mais tu peux tester sur n’importe quelle autre

Ex : https://www.seloger.com/annonces/achat/appartement/massy-91/vilmorin/159246323.htm
-> https://www.seloger.com/annonces/159246323.htm

C’est juste un moyen d’accéder au détail d’une annonce à partir de son id, il faut ensuite parser le html de la page.

Bonjour, j’ai essayé en passant par Postman d’obtenir le résultat d’une recherche avec un requête get tel que :
https://www.seloger.com/list.htm?projects=1&types=1,2,11&places=[{« inseeCodes »:[60088]}]&price=NaN/1366&surface=40/NaN&enterprise=0&qsVersion=1.0&m=search_refine

Malheureusement voici le résultat :

<p id="cmsg">Please enable JS and disable any ad blocker</p>

<script>

    var dd={'cid':'AHrlqAAAAAMAo5zSHDVokcAAVAZ1aQ==','hsh':'77D81445BE5A1B811A597604196595','t':'bv','s':24171,'host':'geo.captcha-delivery.com'}

</script>

<script src="https://ct.captcha-delivery.com/c.js"></script>

Quelqu’un aurait une idée de comment contourner ce problème ou si il y a une api disponible ?

Ouai il y a la même chose sur le bon coin.

Scrapper en curl ne marche pas non plus.

La fameuse protection datadome :confused: Après si tu veux MP j’ai deja réussi à contourner la limite

Je n’ai pas ce problème sur SL si j’envoie les headers avec la requête.

A date, les headers à fournir sont :
sec-fetch-mode
referer
sec-fetch-site
accept-language
cookie
dnt
sec-fetch-user
accept
sec-ch-ua
sec-ch-ua-mobile
upgrade-insecure-requests
cache-control
accept-encoding
sec-fetch-dest
user-agent

Par contre ça ne fonctionne pas pour LBC

Je peux extraire Seloger & logic-immo sans bloquer , avec seulement des requets pures et sans proxy.
Si vous êtes intéressé, envoyez-moi un message privé :slight_smile:

3 « J'aime »

Lbc j’ai créer une extension Chrome

Bonjour, top l’api lbc. J’en ai une aussi mais obligé de rafraîchir le cookie datadome régulièrement… je vais tester votre api :wink: et sinon une solution pour contacter le user via la messagerie lbc sans être ban au bout de x messages ?

Hello ! Ca m’intéressse :slight_smile:

Salut,
Je suis bien intéressé par ta méthode pour extraire du SeLoger / logic immo / etc. Perso je scrap Laforet, PaP, Orpi, Century21, et pendant longtemps j’ai eu SeLoger LogicImmo, mais depuis quelques années plus moyen.
Merci d’avance !
Christophe

Salut @supertramp22 , @couscousiere

voila l’api du Seloger et Logic-immo
maintenant c’est seulement pour seloger , mais je vais ajouter dans les prochains jours logic-immo
j’attends vos retours :smiley:

1 « J'aime »

Hello

Pour tous les amoureux du no-code, on a développé un joli scraper online

Et le tuto juste là:

NB: vous pouvez profiter de 15 minutes de collecte gratuite chaque jour i.e. approx. 300 listings avec téléphone :telephone_receiver:

:fire:

salut ton lien ne marche pas :confused:

Oupsi…
C’est fixed!

Avec la jolie meta balise qui s’affiche…

:crab:

Hello @tous,

Et on a fait un petit comparatif des solutions existantes sur le marché

A priori sur ce scraper, pas de débat…

:sparkles:

Curieux d’avoir vos retours!

Tu oublies les databrokers français / bases de données qui regroupent +50 sites en immo :grin:

Hello Josselin,

Tu as des exemples ? J’ai trouvé Yanport mais n’ai jamais eu de réponse de leur part …