Enrichissement de données agences immo de Paris 2024

Hello ! J’ai besoin de votre expertise collective. Voici les défis que je cherche à relever :

  • :cityscape: Trouver une liste exhaustive des agences immobilières parisiennes
  • :male_detective: Expérience de scraping sur meilleursagents.com ?
  • :bulb: Astuces pour contourner le scraping d’un menu déroulant
  • :hammer_and_wrench: Recommandations d’outils efficaces pour ces tâches

J’ai aussi quelques questions annexes :

  • :brain: Vos avis sur Kaspr ?
  • :bar_chart: Des retours d’expérience sur l’enrichissement de données LinkedIn via Kaspr ?

Enfin, je suis à la recherche d’un site immobilier qui regrouperait toutes ces infos sur les agences parisiennes :

  • :round_pushpin: Nom et adresse
  • :busts_in_silhouette: Équipe et direction
  • :telephone_receiver: Coordonnées (email, téléphone)

Vos idées et conseils seront les bienvenus ! Merciii :muscle::smiley:

Hello !

Je partirai sur un workflow d’automation avec un outil comme Make en partant de données Google Maps selon des « zones géographiques » (pour Paris, peut-être par arrondissement). Il existe des outils d’export massif de données Google Maps selon la carte visualisée. Voir ici : Outil scraping GOOGLE map gratuit

Ensuite, il faudrait enrichir les données selon ce dont vous avez besoin en trouvant les bonnes manières d’enrichir les données. Vous aurez déjà le ndd, donc y a possibilité de chercher sur le site, puis évidemment tout autre outil d’enrichissement de datas sera utile.

C’est une idée de départ ! Quelqu’un aura peut-être mieux à vous proposer ?

1 « J'aime »

@tamtam34 Merci beaucoup !

C’est un bon début en tout cas effectivement.
Quelqu’un d’autres pourrait compléter ce scénario ? :slight_smile:

Hello !

J’ai fais tourner l’un de mes codes en local pour tester ton use case sur Google Maps, tu peux trouver ci-joint 2 datasets :

  1. La liste de 10k business qui ressortent avec la recherche ‹ Agence Immobilière › sur Google Maps
  2. La liste de toutes leurs reviews (+1M) (tu n’as pas demandé mais tu as quand même, si un jour tu as envie de faire de l’IA dessus pourquoi pas :sweat_smile:)

Il m’en manque car je dois encore gérer les histoire de latitude, longitude et radius de mon script pour bien faire toute la France, mais c’est déjà ca !

Pour alimenter cette base tu pourrais :

  1. Scraper MeilleursAgents (je peux te faire ca si besoin)
  2. Matcher la base Google Maps et celle de Meilleurs Agent grâce au géocode des agences immo (ou ne pas matcher si tu n’as pas besoin de Google Maps)
  3. Utiliser une recherche perso des employés de l’agence pour avoir leurs URL Linkedin (Exemple de recherche : « Prénom Nom NomAgence site:linkedin.com »
  4. Dépendamment de ta stratégie de Reach, utiliser des services comme LaGrowthMachine qui prennent en entrée des URLs linkedin pour envoyer des emails/messages ou alors du Kaspr (que je n’aime pas trop car les résultats ne sont pas très bons) → Utilise Icypeas pour l’enrichissement par email, et Cleon1 pour l’enrichissement par tel (très cher pour les tel persos, utilise les tels Google Maps c’est assez!)

Si tu fais des campagnes de mail ou linkedin, utilise bien les particularités de chaque business pour améliorer ton approche, et augmenter ton taux de conversion (les catégories google, les prestations, les avis négatifs etc…) !

Le lien vers les datasets : Agences Immobilières Google Maps - Google Drive

2 « J'aime »

Merciiii je regarde tout ça.

Pas de soucis ! Tu sais gérer des json yes ?

Moyennement, donc si tu as des conseils sur la méthode à suivre, volontiers:slight_smile:

Je te les ai mis au format csv : Agences Immobilières Google Maps - Google Drive

1 « J'aime »

Est ce que tu arrives à récup le site web par ton scraping ?

Check les fichiers ! (oui pour te répondre) Il y a + de 40 datapoints pour les business

Pour partager ma réponse à @Motorcycle24 qui m’a demandé plus d’infos sur comment marchait le script de scraping Google Maps :

Je viens simuler plusieurs recherches manuelles.

Dans l’URL Google Maps, tu peux input des coordonnées et un périmètre (appelé radius) en plus de ta recherche. Le pattern de l’url le suivant : « https://w ww.google.com/maps/search/{name_searched}/@{latitude},{longitude},{radius}z?gl=fr&hl=fr »

Google Maps te limite à 120 résultats par recherche. J’ai donc un fichier CSV avec 200 lignes qui contiennent une latitude, longitude et un radius. Tu vas mettre plus de points avec un petit radius dans les grandes villes, et un plus grand radius dans les campagnes (–> car la limite est de 120 résultats). Sur l’exemple des Agences Immo, j’ai pas encore mis super bien à jour ce fichier de coordonnées, donc il me manque des business.

Je récupère tous les ID des business qui tombent des mes 200 recherches, et je dédoublonne ces ID.
Ensuite, je reconstruit une URL par ID trouvé pour accéder à leur page, et j’extrais toutes les infos que je trouve.

Dans la réalité, pour accéder aux résultats de recherche et aux pages de business, il faut injecter des headers assez custom (genre des cookies bien trouvés) pour passer la sécurité.
C’est aussi un peu galère de paginer les résultats de la recherche sur la coordonnée : la première request sur le pattern d’url ci-dessus te donnera 10-20 résultats, et il faut scroller vers le bas pour débloquer les 100-110 autres. Donc il te faut l’ID du 10è pour requêter du 11 à 20, etc. jusque 120.

@MarieGainche Je peux t’aider à te construire une bdd exhaustive si besoin !

Merci beaucoup ! Ca à l’air assez complexe techniquement tout de même, non ?

C’est possible de récupérer une adresse mail de contact aussi tu penses ?

Ca dépend de tes connaissances de base !
Oui c’est assez complexe, mais assez logique aussi =)

Pour les emails yes. Tu as pour la majorité des business le lien vers leur site web (donc leur domaine). La technique c’est de :

  • Accéder à chaque site web
  • Extraire de ces sites les patterns qui ressemblent à emails

Tu as des outils qui proposent de sortir les emails à partir d’un site web en no code je pense

Alors, je crois que ça pourrait être utile, car je n’ai malheureusement pas le temps de m’attarder à creuser et mes connaissances de base ne sont pas suffisamment poussées, malheureusement.