Prix d'un scraping (débutant)

Bonjour. Je travaille dans l’immobilier, je ne connais pas grand chose au code et toute la partie technique ne m’intéresse pas. Je me rends compte en revanche qu’il existe des outils incroyables pour produire des solutions efficaces à des problèmes, et j’aimerais savoir le coût et la faisabilité d’une solution au mien.

Je cherche à trouver les meilleurs ROI liés à l’investissement immobilier dans une zone donnée (Playa del Carmen, Mexique). Ici les annonces et les recherches de bien se font à travers plusieurs canaux, à la différence de la France. Il existe des agences immobilières (type SeLoger) mais qui proposent principalement des ventes. Il y a aussi des groupes Whatsapp de brokers qui proposent des ventes ou recherchent un type de bien à acheter/louer, ainsi que des groupes Facebook qui proposent de tout, en plus de Facebook market.
Enfin, il y a les sites type airbnb/booking qui proposent des locations courte durée.

Je souhaite scraper tout ça puis traiter les données sorties afin de réaliser 2 objectifs.

  1. Calculer et simuler des ROI par type d’immeuble et de biens grâce aux données passés de vente et aux données actuelles de location. De même, j’aimerais prédire des ventes futures, pouvoir filtrer par zones ou d’autres critères.
  2. Matcher automatiquement des clients qui cherchent des biens à travers un canal avec des vendeurs qui louent ou vendent leur bien sur un autre canal.

Un tel projet est-il réalisable? Pour quel coût en terme d’ordre de grandeur? 1000 euros, 5000 euros, 20 000 euros…? Et quel est le temps nécessaire pour réussir à faire ça.

Je vous remercie pour votre aide, j’ai conscience que ce forum est plus orienté technique, si jamais mon sujet n’a pas sa place ici, j’apprécierais énormément des recommandations.

Bonne soirée.

En gros tu veux faire lybox.fr et cityscan.fr à l’échelle mondiale, bon courage mdr

Bonjour. Pour réaliser ton projet, il te faudrait donc des robots en veille sur tous tes canaux. Déjà, sur cette partie, il faudrait donc développer un scraper par canal et le maintenir : les sites peuvent changer de structure assez rapidement.

Le gros enjeux de ton projet c’est la compréhension de la donnée. Pour SeLoger, je peux théoriquement développer un scraper qui va extraire toutes les nouvelles annonces : toutes ses annonces ont le même format et la même structure, donc je peux ‹ prédire › le format et la structure de l’annonce qui sera publiée demain.
Par contre, pour un canal comme Whatsapp ou Facebook, les annonces ont des formats plus randoms, donc plus difficile à utiliser. C’est ‹ facile › de mettre une veille sur toutes les annonces qui sortent sur Facebook, mais plus difficile d’extraire les prix des annonces immobilières de toutes les annonces Facebook (ou Whatsapp, ou Facebook Market)
Derrière le mieux serait de passer par un LLM pour comprendre l’annonce et en extraire les informations importantes, pour que tu puisses in fine comparer les informations de Whatsapp avec celles de Seloger ou de Facebook.

Tout projet est réalisable. Mais pour celui là tu vas avoir :

  • Un gros coût d’implémentation : ca dépend du nombre de channel que tu dois surveiller mais si tu en as 4 (FB market, FB groups, wh et Seloger), compte au moins 1 à 3 semaines de dev par channel (pour comprendre comment marchent les sites + mettre en forme les données)
  • Un gros coût de maintenance : qui dit plusieurs scrapers dit plusieurs codes à maintenir fonctionnels dans la durée
  • Un gros coût de run : Facebook, Whatsapp et Seloger sont très sécurisés, tu vas donc devoir passer par des proxies pour les scraper, et ca a un coût par requête. Par exemple, si tu dois requêter 10k fois Facebook en 1 semaine, ton coût sera de 10 000 * Le cout d’une requête de ton proxy. En plus, si tu intègres de l’IA pour extraire les bonnes données, ca coûte encore relativement cher.

En résumé, le projet est faisable, mais tout dépend de combien de cash tu vas dégager rapidement avec. Ca peut vite te coûter plus cher à faire tourner que la plus value qu’il te rapporte :slight_smile: