Scrapping et dédoublonnage CRM

Hello à tous :fire:,
Je réouvre un sujet datant de 2019 sur ce forum, à savoir le dédoublonnage.

Voici ma problématique :
Comme bcp d’entreprises, je scrappe de la data à différents endroits.
Le souci vient lorsque je souhaite importer cette data dans Hubspot. Il faut une clé de dédoublonnage. La plus fiable semble être le SIRET pour les entreprises et le MAIL pour les contacts.

Je me focus principalement sur le SIRET. Jusqu’ici, je n’ai pas trouvé de solution « gratuite » (automation, solution, etc) qui permet de trouver ces infos gratuitements.

J’ai donc creusé du côté de l’IA avec google sheet pour essayer de faire matcher les entreprises scrappés avec les entreprises existantes sans avoir le SIRET (en me basant sur des critères de probabilités) mais sans grand succès.

Est ce que vous auriez des pistes pour ce problème ?

Merci à tous !

Tu peux check l’intégration native de Dropcontact x Hubspot
Ton Hubspot va prendre une tout autre dimension et pas uniquement sur les doublons :wink:

1 « J'aime »

Yes c’est une option que j’ai depuis un moment.
Mais ça reste une solution payante :wink:

En effet, par contre cela change vraiment ta productivité business :wink:

1 « J'aime »

Hello !

C’est un sujet que j’ai eu à traiter lors de mes expériences. J’avais une base de donnée non siretisée dans Hubspot, et une base de donnée scrapée avec siret dans un csv. Dans les 2 bdd, j’avais une adresse postale.

J’ai fais les étapes suivantes :

  • Géocoder toute ma base Hubspot, en utilisant l’API adresse.gouv (gratuit), dans le but de récupérer les latitudes/longitudes de chaque enterprise Hubspot
  • Créer une clé unique « Geocode », qui concat la latitude et la longitude pour ma base Hubspot
  • Géocoder toute ma base CSV
  • Créer une clé unique avec mes lat/long
  • Faire matcher les 2 bases avec ma nouvelle clé, le géocode.

Plus il y a de décimale à une lat/long, plus ces coordonnées sont précises. Je te laisse consulter cette page wiki pour t’informer : Decimal degrees - Wikipedia

Ce process inclue plusieurs enjeux :

  • Si les adresses ne sont les mêmes dans tes 2 bases: par exemple, tu as ‹ 3bis avenue Duchmol › et ‹ 3 avenue Duchmol ›, tes géocodes ne seront pas les mêmes. Je te conseille donc de tronquer les géocodes à 3 décimales pour rester précis mais augmenter le taux de matching
  • Si l’entreprise A dans Hubspot n’a pas la même adresse que la même entreprise dans ton CSV, le dédoublonnage ne marchera pas
  • Si l’adresse n’existe pas dans l’API adresse.gouv, tu ne pourras pas la géocoder.

C’est exactement ce problème qui m’a poussé à créer un outil qui pourrait fournir un ID Google, un Siret, un Géocode par entreprise. Ca permet derrière de fusionner plusieurs bases ensemble ! Si tu as envie de l’essayer, tu peux remplir ce formulaire : Générez un fichier de prospection B2B (très) quali. Gratuitement. :slight_smile:

A ta dispo si tu as des questions

2 « J'aime »

C’est un process qui ne sera jamais exact non plus. En suivant les étapes ci-dessus, j’ai essayé de siretiser 30k garages auto. Mes résultats :

  • 50% de ‹ bon match › (le numéro siret attribué est le bon numéro siret)
  • 42% de ‹ non match › (pas de numéro siret attribué)
  • 8% de ‹ mauvais match › (le numéro siret attribué est le mauvais).

J’ai comparé avec societeinfo, qui propose de siretiser une bdd à un certain prix, ils ont à peu près les mêmes taux.

(pour avoir ces résultats, j’ai essayé de siretiser des entreprises déjà siretisées)

1 « J'aime »

L’API adresse propose déjà une clef unique, pourquoi ne pas s’en servir directement ?

1 « J'aime »

La refaire toi même te permet de garder la main sur la précision que tu as envie de mettre, mais tu peux aussi utiliser celle qui t’es donnée :slight_smile:

1 « J'aime »

Merci pour ta réponse plus que concrète !

Effectivement, le process revient à faire ce que j’ai fais mais en te basant sur les adresses postales qui est une clé plus efficace et fiable.

Là ou ça me « chagrine », c’est le fait de répéter ce process dès que l’on fait une op de scrapping. Donc très chronophage et sur du « quali » le ROI temps/résultats diminue énormément…

Finalement j’ai l’impression que bcp d’entreprises sont bien plus « boucher » dans les doublons CRM quitte à faire des erreurs d’envoies etc.
C’est aussi votre avis @Morph et @Scalon ?

L’idéal est bien sur de dédoublonner sur le SIRET, mais quand tu n’en as pas, l’adresse et le nom sont sûrement le mieux.
Pour aller plus vite, tu peux utiliser certains outils, qui, même s’ils sont payants, seront plus efficaces/à jour que ce que tu peux développer (c’est leur expertise et c’est pour cela que ça a un coût).
A toi de faire des compromis.

Au niveau des adresses et pour aller plus vite, tu peux aussi monter ton propre serveur API des adresses :

2 « J'aime »

Complètement d’accord. La gestion de la data est un travail à part entière, d’où l’énorme enjeux de peupler son CRM dès le début avec de la donnée clean (qui inclue des clés unique notamment).
Si tu arrives à avoir un CRM avec pour chaque entreprise :

  • Un SIRET
  • Un ID Google
  • Un Géocode,
    Ca te permet d’être totalement sans friction lors d’actualisation de ta base actuelle ou lors de l’import de nouveaux leads.

Je pense qu’il faut aussi ne pas être trop attaché à toute la donnée déjà dans ton CRM : la meilleure solution est parfois de faire un grand cleaning de ta base, en supprimant tout ce qui n’a pas d’ID unique, et en re-peuplant derrière avec de la donnée bien formattée.

1 « J'aime »