Je scrape des fiches Google My Business (GMB / Fiches d’établissement) de professionnels de la réparation pour récupérer notamment les numéros de téléphone.
Le souci : les Sales me remontent que beaucoup d’établissements sont en réalité fermés définitivement. Et côté data, je n’ai aucun indicateur fiable dans la fiche GMB pour le repérer (fiche pas à jour, pas d’info sur la fermeture, etc.).
Mon idée serait donc de retrouver le SIREN de chaque entreprise à partir des infos GMB (nom, adresse, etc.) pour ensuite faire un matching avec Pappers ou une autre base et vérifier si l’entreprise est encore active.
Ce que j’ai testé sur Pappers :
Matching via le nom GMB → souvent KO car le nom commercial ≠ raison sociale.
Matching via l’adresse → compliqué quand plusieurs entreprises partagent la même adresse.
Est-ce que quelqu’un ici a déjà été confronté à ce problème ?
Je suis preneur de vos retours d’expérience ou pistes techniques (API, bases, méthodes de matching, etc.).
hello Mathieu,
Tu peux créer un tool avec l’API sirene pour chercher une entreprise de la base sirene à partir du nom d’entreprise + ville (souvent ça matche grâce au nom commercial qui est différent de la dénomination officielle)
Pour les entreprises non trouvées, une recherche google : {{domaine}} + siret
=> scraper tous les 1ers résultats de recherche
c’est un problème que je rencontre souvent et je n’ai trouvé aucune solution très satisfaisante, car comme tu le dis, les raisons sociales et intitulés GMB peuvent différer légèrement des informations officielles, les adresses aussi un peu, j’utilise parfois cette apii : API Recherche d’entreprises & API Entreprise
sinon ce qui peut bien marcher c’est un google dork,
nom + activité + adresse site:societe.com
çà te ressort les entreprises (ou plutot établissements) les plus plausibles
Si quelqu’un d’autre a des idées çà m’intéresse aussi ^^
nous avons pris comme critère le département pour les cas ou l’entreprise déménage; c’est souvent dans le même département
un des problèmes rencontrés ce sont les sociétés d’un même groupe qui vont être à la même adresse avec des noms très proches ; Trucmuche , Trucmuche finance, et là siren t’envoi le premier trouvé!!
Déjà attention à distinguer societe (siren) et établissement (siret) là dans le cas présent, le besoin est de rapprocher une fiche GMB à un établissement, il faut donc rechercher (api sirene, recherche entreprise, societe.com etc …) les établissements qui pourraient correspondre
comme sources de données il y a aussi les pages jaunes qui présentent parfois les données siren :
Il existe de nombreuses sources pour ce type de recherche, qui seront plus ou moins pertinentes en fonction du domaine d’activité, et le résultat sera d’autant meilleur si on cherche sur plusieurs sources.
Pour ce type de recherche je partirais dans le sens inverse base sirene –> enrichissement GMB, pagejaunes, facebook etc ….
Bonjour @Mathieu-L , si tu prospectes des professionnels de la réparation (des artisans ?) en t’appuyant sur les données GBP, c’est normal que tu ais 10% à 15% de chute pour des motifs comme “cessation d’activité”, “liquidation” ou “changement d’enseigne” car les pros prennent rarement le temps de mettre à jour leur fiche GBP quand ils ferment leur entreprise, la déménage, etc.
le rapprochement entre les data GBP et SIRENE peut te permettre d’en filtrer une partie mais ce ne sera pas non plus la panacée, car une partie des petites entreprises ne fait généralement pas les démarches nécessaires dans des délais courts après la fin d’activité pour mettre à jour leurs données légales.
Il n’est pas rare que le n° SIRET/SIREN d’une entreprise fermée reste actif encore une ou deux années après la fin réelle de l’activité économique, y compris pour des entreprises radiées, le temps que les infos remontent des tribunaux de commerce vers l’INPI puis vers l’INSEE.
pour en revenir au matching GBP/SIRENE, le plus simple techniquement est de t’appuyer sur le géocodage de l’adresse du pro côté Google et le géocodage équivalent des adresses des établissements côté SIRENE pour faire un data matching sur la base du nom des entreprises + calcul de proximité sur le géocode.
cela te permettra d’améliorer ton taux de rapprochement, tout est étant moins dépendant des orthographes parfois différentes des adresses entre Google et l’INSEE, des cas où le n° SIRET d’un pro est à son adresse personnelle alors que sa fiche GBP est à une autre adresse, etc.
en ce rappelant aussi qu’il existe plusieurs champs de dénomination différents dans la BDD SIRENE pour chaque établissement -où sont présents les raison sociale, sigle et enseigne de chaque entreprise- et qu’il faut bien prendre en compte les trois pour augmenter ton % de matching par rapport au nom du pro côté GBP
@DJousto, avant de proposer l’utilisation d’une source de données, il convient peut être de vérifier si tu es légalement en droit de l’utiliser pour de la prospection, non ?
Toutes les données accessibles en ligne, même en B2B, ne sont en effet pas légalement réutilisables pour de la prospection commerciale, sous risque de sanctions. Il suffit généralement de consulter les CGU d’un site pour s’en assurer:
Je cite le paragraphe relative à la prospection publicitaire et à la prospection “illicite”:
En accédant au présent site, vous reconnaissez que les données le composant sont légalement protégées et, conformément aux dispositions de la loi du 1er juillet 1998 précitée, vous vous interdisez notamment d’extraire, réutiliser, stocker, reproduire, représenter ou conserver, directement ou indirectement, sur un support quelconque, par tout moyen et sous toute forme que ce soit, tout ou partie qualitativement ou quantitativement substantielle du site auquel vous accédez ainsi que d’en faire l’extraction ou la réutilisation répétée et systématique de parties qualitativement et quantitativement non substantielles lorsque ces opérations excèdent manifestement les conditions d’utilisation normale.
En vertu du respect des droits des abonnés inscrits en liste d’opposition à des opérations de prospection directe et des dispositions de l’article R10-1 du Code des Postes et Communications électroniques fixées par décret en Conseil d’Etat du 01/08/03, l’utilisation à des fins commerciales ou de diffusion dans le public de données téléchargées à partir de https://www.pagesjaunes.fr est formellement interdite, sous peine des sanctions pénales prévues par les articles 226-16 à 226-24 du Code pénal qui sanctionne notamment le délit de collecte illicite de données personnelles
Hello @Mathieu-L
C’est un gros chantier auquel tu t’attaques..
Et sans te décourager ce n’est pas en “bricolant” que tu obtiendras de bons résultats.
Il faut aspirer l’open data de l’insee, de l’inpi et du bodacc puis développer un algo de matching qui va venir confronter la data B2B trouvée sur le BIg data (google maps, pages jaunes, FB..) pour trouver le siren!!
ET surtout mettre a jour la data légale car sinon tu vas en effet te confronter a plein de sirens morts..
C’est toute la tech développé en interne par nos équipes chez Datapult.ai
Et pour te répondre Oui on sait parfaitement réconcilier toute la data a des sirens . ET même les profils linkedin
80% des 18M de profils Français sont directement liés a un Siren !!
Si besoin de gagner du temps , tu sais ou nous trouver .. haha
Bonne continuation les pirates !!
heu… tu peux aussi scraper pages jaunes via google .. et là ils n’ont rien à dir !
D’ailleurs Google est-il sanctionné de récolter leur data ? NON !!! Hmmm vaste débat
Merci à tous pour toutes vos réponses !
Je vais prendre le temps de lire et je vous tiens au courant si j’arrive à une solution pour vous partager mes REX !
Nous avons mis en place tout un pipe pour collecter et enrichir Siren Linkedin etc..de nos comptes puis les intégrer à notre CRM ; gros projet en effet.
Mais il nous reste des cas de non réconciliation à partir de la raison sociale non reconnue
Preneur si vous avez une solution à partir d’une des clés suivantes et compléter les infos manquante ;
Url linkedin de compte et ou Webiste
N° siren
Evidemment dans des coûts abordables …