Hello à tous ,
Je réouvre un sujet datant de 2019 sur ce forum, à savoir le dédoublonnage.
Voici ma problématique :
Comme bcp d’entreprises, je scrappe de la data à différents endroits.
Le souci vient lorsque je souhaite importer cette data dans Hubspot. Il faut une clé de dédoublonnage. La plus fiable semble être le SIRET pour les entreprises et le MAIL pour les contacts.
Je me focus principalement sur le SIRET. Jusqu’ici, je n’ai pas trouvé de solution « gratuite » (automation, solution, etc) qui permet de trouver ces infos gratuitements.
J’ai donc creusé du côté de l’IA avec google sheet pour essayer de faire matcher les entreprises scrappés avec les entreprises existantes sans avoir le SIRET (en me basant sur des critères de probabilités) mais sans grand succès.
Est ce que vous auriez des pistes pour ce problème ?
C’est un sujet que j’ai eu à traiter lors de mes expériences. J’avais une base de donnée non siretisée dans Hubspot, et une base de donnée scrapée avec siret dans un csv. Dans les 2 bdd, j’avais une adresse postale.
J’ai fais les étapes suivantes :
Géocoder toute ma base Hubspot, en utilisant l’API adresse.gouv (gratuit), dans le but de récupérer les latitudes/longitudes de chaque enterprise Hubspot
Créer une clé unique « Geocode », qui concat la latitude et la longitude pour ma base Hubspot
Géocoder toute ma base CSV
Créer une clé unique avec mes lat/long
Faire matcher les 2 bases avec ma nouvelle clé, le géocode.
Plus il y a de décimale à une lat/long, plus ces coordonnées sont précises. Je te laisse consulter cette page wiki pour t’informer : Decimal degrees - Wikipedia
Ce process inclue plusieurs enjeux :
Si les adresses ne sont les mêmes dans tes 2 bases: par exemple, tu as ‹ 3bis avenue Duchmol › et ‹ 3 avenue Duchmol ›, tes géocodes ne seront pas les mêmes. Je te conseille donc de tronquer les géocodes à 3 décimales pour rester précis mais augmenter le taux de matching
Si l’entreprise A dans Hubspot n’a pas la même adresse que la même entreprise dans ton CSV, le dédoublonnage ne marchera pas
Si l’adresse n’existe pas dans l’API adresse.gouv, tu ne pourras pas la géocoder.
C’est exactement ce problème qui m’a poussé à créer un outil qui pourrait fournir un ID Google, un Siret, un Géocode par entreprise. Ca permet derrière de fusionner plusieurs bases ensemble ! Si tu as envie de l’essayer, tu peux remplir ce formulaire : Générez un fichier de prospection B2B (très) quali. Gratuitement.
Effectivement, le process revient à faire ce que j’ai fais mais en te basant sur les adresses postales qui est une clé plus efficace et fiable.
Là ou ça me « chagrine », c’est le fait de répéter ce process dès que l’on fait une op de scrapping. Donc très chronophage et sur du « quali » le ROI temps/résultats diminue énormément…
Finalement j’ai l’impression que bcp d’entreprises sont bien plus « boucher » dans les doublons CRM quitte à faire des erreurs d’envoies etc.
C’est aussi votre avis @Morph et @Scalon ?
L’idéal est bien sur de dédoublonner sur le SIRET, mais quand tu n’en as pas, l’adresse et le nom sont sûrement le mieux.
Pour aller plus vite, tu peux utiliser certains outils, qui, même s’ils sont payants, seront plus efficaces/à jour que ce que tu peux développer (c’est leur expertise et c’est pour cela que ça a un coût).
A toi de faire des compromis.
Au niveau des adresses et pour aller plus vite, tu peux aussi monter ton propre serveur API des adresses :
Complètement d’accord. La gestion de la data est un travail à part entière, d’où l’énorme enjeux de peupler son CRM dès le début avec de la donnée clean (qui inclue des clés unique notamment).
Si tu arrives à avoir un CRM avec pour chaque entreprise :
Un SIRET
Un ID Google
Un Géocode,
Ca te permet d’être totalement sans friction lors d’actualisation de ta base actuelle ou lors de l’import de nouveaux leads.
Je pense qu’il faut aussi ne pas être trop attaché à toute la donnée déjà dans ton CRM : la meilleure solution est parfois de faire un grand cleaning de ta base, en supprimant tout ce qui n’a pas d’ID unique, et en re-peuplant derrière avec de la donnée bien formattée.