SIREN à partir de l'URL

Salut tout le monde,

Je cherche un moyen de récupérer le SIREN d’une entreprise à partir de son URL.
Il y a un post sur ce blog qui date de 2021, la solution proposée n’est plus d’actualité malheureusement.

Je dispose d’une bdd d’entreprises (nom, cp, url…) que j’aimerai sireniser afin d’enrichir par la suite avec les info financières…

Pappers et autres solutions font du matching floues, il y a également societeinfo mais j’aimerai l’utiliser qu’en dernier recours une fois que j’aurai le SIREN et après filtre '(ca coutera moins cher).

Merci d’avance pour vos retours

Bonjour, l’API de recherche d’entreprise permet de rechercher avec le nom de l’entreprise ainsi que d’autres attributs comme la commune, le code NAF de l’activité, etc: API Recherche d'entreprises - ReDoc

bonjour, normalement, si c’est l’url du site officiel de l’entreprise, ils ont des mentions légales ou des informations sur l’entreprise et doivent mentionner leur SIREN, j’ai des scripts qui permettent de chercher un mail en parcourant un site mais je peux facilement l’adapter pour chercher un SIREN si besoin. Après ça sera pas du 100% faudra surement utiliser l’api de recherche d’entreprise mais c’est pas non plus fiable à 100% ça dépend un peu du genre d’entreprises

En utilisant Clay avec un agent IA il devrait te trouver ça de façon propre

C’est exact mais ça me fait pas mal de fois du matching incorrect à cause des homonymes et des noms similaires, j’aimerai utiliser le site web pour avoir quelque chose de sûr

J’ai fais tourné un script de même, pour le moment je suis à 35% de récupération de SIREN, c’est encore faible voila pourquoi je cherche une API directement. Mais c’est une solution de dernier recours effectivement

Je vais regarder ça merci!

L’idée est de récupérer pour chaque entreprise un ensemble de candidats et faire ensuite un post-traitement pour vérifier les données de chaque candidat et les comparer à toutes les autres données que vous avez (cp, commune, etc).

1 « J'aime »

En complément de ce qui a été dit, un truc qui marche bien en fallback quand les mentions légales sont pas exploitables : une requête Google type site:societe.com « nom-de-domaine.fr » — ça te sort souvent la fiche directement.

Et pour l’API recherche-entreprises, le tip qui change tout c’est de bien nettoyer le nom avant d’envoyer : virer les formes juridiques (SAS, SARL, EURL…), les accents, et les mots génériques. Ça fait vraiment monter le taux de match.

J’ai un process similaire si ca peut t’aider, normalement nom / adresse / CP tu match une bonne partie de ta base ( Attention avec le CP, dans mes fichiers j’avais souvent le CEDEX qui ne match pas avec l’API entrerpsie ) et Siren ca te matchera le siège et pas l’établissement, puis un mini algo de scoring. Si tu veux tester :

top merci je vais essayer également

merci beaucoup

Tu cherches à le faire uniquement par API ou bien par fichiers, ça irait ?

Si par fichiers, c’est ok. C’est un cas qu’on traite plutôt plutôt mal sur Pharow.com. C’était l’un de nos premiers chantiers d’arriver à associer des URLS à des SIREN.

Tu pourrais charger ton fichier d’URL et on te donnera les SIRENs et le reste des infos des entreprises (y compris financières : chiffre d’affaires, résultat, etc.)

La lecture des posts de ce fil me rappelle nos premières recherches… et les différentes réactions retracent nos étapes y compris le nettoyage des mots commun ( STE, entreprise..) lorsqu’on part du nom de l’organisation.

L’ID siren c’est en effet le top en B2B
Nous n’avions pas trouvé de solution d’extraction des siren depuis les site web, nous avons depuis mis en place un connexion opendata ; mais la recherche par nom seule pose les problèmes d’homonymes; il faut combiner avec une localisation ou un code naf/activité
Ce que l’on gère mal ce sont les groupes ; quand tu as les sièges de plusieurs sociétés dont le nom est très proche et à la même adresse.
Des idées ?

Hello Katakume,

on a dev notre propre script pour explorer les sites à la recherches des mentions légales et identifié les siret, siren , numéro de tva.

On traite actuellement 3k sites / heure

Si tu as un petit volume test à traiter à ta dispo et encore plus dispo sur les gros

hello Olivier

as tu pu vérifier que cette méthodo est clean

pas expérience on se retrouve avec des homonymes et pas forcément le bon siren