Scraping SeLoger

Hello,

comme beaucoup, j’utilisais ponctuellement l’API* de SeLoger, qui ne semble plus fonctionner depuis quelques semaines.

J’ai l’impression qu’elle a été retirée de leurs serveurs. En examinant leur site, j’ai repéré un autre endpoint utilisé sur leur page annonce dont je n’ai pas réussi à reverse-engineerer la structure:
https://annonce-webapi-house-prod.svc.groupe-seloger.com/api/1.0/annonce/AnnonceService/GetAnnoncesSimilairesByAnnonceId/146705971

Est ce quelqu’un a été plus chanceux que moi?

Trouvé la réponse sur Github:
https://ws-seloger.svc.groupe-seloger.com

4 J'aimes

@pierrick1

Je suis intéressé par ce topic, est-il possible de détailler davantage ?
En regardant les requêtes qui transitent, je ne vois pas de https://ws-seloger.svc.groupe-seloger.com/
Par contre, je vois qu’il passe par plusieurs API :

Pour SeLoger, je trouve limite plus simple de le scrapper sans passer par les API mais directement le HTML.
Si quelqu’un a des infos, je suis preneur.

Merci

Bonjour
Pour le faire au quotidien, je te confirme que par le HTML, on a ce qu’on veut.
SeLoger bloque cependant pas mal dès qu’il détecte le robot
Une rotation d’IP simple permet de contourner cela très facilement

Merci, pour ta réponse.

Je suis passé par BeautifulSoup pour le scrapper, c’était le plus simple effectivement.

Bonne journée.

L’API permet de récupérer les détails d’un bien ou de faire une recherche. Jette un oeil sur cette doc: https://github.com/pasnox/housing/blob/master/SeLoger.com.api.txt

Salut les GH,

J’ai essayé de scraper SeLoger avec WebScraper, ça fonctionne bien. Par contre, j’ai une limite au bout d’un moment : le site m’affiche un captcha car il a détecté le scrap. Savez-vous comment je pourrais contourner cette limite ?

Merci :smiley:

  1. Élément

Changer d’iP ? Tu as essayée ? Tu scrapes via api ou interface web ?

Non j’ai pas essayé le changement d’IP. Est-ce que tu connaîtrais un outil permettant de la changer dynamiquement ?
Je suis passé par la version cloud de Webscraper (version d’essai). Ca fonctionne plutôt bien mais je vais être limité, et devoir payer…

Si ça fonctionne plutôt bien alors payer ne devrait pas être un frein, mais au contraire utilisé en tant qu’effet de levier :slight_smile: Faut parfois accepter d’investir un peu surtout si ça fait bien le job je pense.

4 J'aimes

Oui je suis d’accord avec toi @ScrapingExpert :slight_smile:Si je ne suis pas prêt à mettre 100€ par mois sur mon idée, il faut que je me pose des questions :sweat_smile:

Tout dépend du montant à investir, 100€ ça commence à faire en fonction du budget, normal d’hésiter j’imagine :slight_smile:

En effet.
quels sont tes volumes ? et fréquence ?

Je dois récupérer environ 400 fiches de logement tous les jours pour valider mon POC.

on en parle quand tu veux
Michel SARFATI
06 79 308 698

Bonjour Neeko,

Essaye d’utilise osmosis js, par contre tu va devoir le faire en NodeJs.

1 J'aime

Apparemment l’api https://ws-seloger.svc.groupe-seloger.com semble ne plus fonctionner.
Quelqu’un a une alternative ?

Vis à vis de ce problème tu as du nouveau? j’ai pas mal bossé sur le l’aspect browser fingerprinting, et maintenant il y a des tas de choses tellement évidentes qui me sautent aux yeux, on comprend vite pourquoi on peut se faire détecter…

Non, par pour l’instant… Je ne sais pas si le endpoint a changé ou si l’api a été supprimée.

L’api ne semble plus activé.

J’ai essayé d’utiliser Puppeteer, ma première requête marche nickel, mais la seconde quelques minutes plus tard semble bloqué.

Avez-vous des idées ?