Je souhaitais exploiter les données du répertoire SIREN en open data afin de récupérer une liste représentative du marché FR des opticiens (points de vente).
En théorie, et d’après diverses études, je devrai retrouver entre 12 et 13K établissements. Pourtant, en filtrant sur le code NAF 48.78A, sensé être le seul et unique code NAF pour cette activité, je retrouve 19K établissements actifs. En retirant les auto-entrepreneurs (categorieJuridiqueUniteLegale = 1000), j’en ai 18K. Si je peux supposer que la liste comprend également des fabricants ou prestataires du domaine, je ne pense pas que cela explique l’écart de 13K à 18K. Mais dans ma liste, je vois que des établissements liés à la photo ou l’imagerie sont également présents à la lecture des dénominations. Cependant, ces dénominations sont dans l’ensemble peu exploitables et les filtrer pourrait biaiser mon jeu de données. Quelqu’un aurait-il une idée de comment je pourrai filtrer ma liste pour m’assurer de n’avoir que les opticiens en exploitant les données open data? Merci pour votre aide.
J’ai eu exactement le même soucis. Il y a énormément de bruit dans la base SIRENE. J’avais fais le travail avec les agences immobilière, et j’en trouvais 110k alors qu’on en recense à peu près 36k en France. C’est dû à des business qui n’ont jamais fermé, à des gens qui se trompent de code naf, ou à des entreprises fantome.
Pour pallier à ce problème, j’ai fais un code qui essaye d’enrichir chaque business de la base SIRENE avec une page Pages Jaune et une page Google Maps.
Ca permet in fine de filtrer en fonction des catégories google ou PJ ma base sirene.
J’ai donc si tu le souhaites un code qui récupère tous les business de la base SIREN avec un code NAF en input (open data), et ca leur associe leur page PagesJaune et leur page Google maps, si elle existe. Ca coûte 0.006 euros par tentative d’enrichissement (prix coûtant des proxies que j’utilise) par ligne de la base sirene.
Je te remercie pour ton retour. C’est ce que je pensais aussi. Finalement, cette base n’est pas aussi « clean » que ce à quoi on pourrait s’attendre. Je comprends donc que tu croises tout cela à l’aide d’un script de web scrapping. Je continue un peu à explorer mais je prends note de ton offre. Merci
Je suis en train de développer un scrapper google maps qui sirétise, trouve les mails et les vérifie.
Des opticiens j’en ai 13237 sur Google Maps.
Dont 7362 sirétisés.
Et 2426 avec un mail vérifié.
Ca m’intéresse de savoir ce que vous en pensez.
Je sais pas si je peux mettre le fichier ici ? Sinon en MP ?
Ca fait des années que j’enrichi en partant de la base siret.
Au final il y a des imprécisions au niveau des NAF.
Soit qui n’ont rien à voir (un petit % ce n’est pas généralisé), soit qui ne sont pas assez précis (impossible de cibler les bowloing par exemple ils sont dans 4 codes naf différents et trop généralistes).
Quand tu pars de google maps et que tu enrichis en siret, tu récupères aussi tous ceux qui ont un code NAF à côté de la plaque (ex: complètement faux, ou bien en activité de holding, etc…).
des Opticiens sur mon extract Google Maps : 13237 lignes.
Je t’ai envoyé le fichier.
des Opticiens - 4778A (Commerces de détail d’optique) - sur notre base B2B basée sur les siret : 14 455 lignes. La page du comptage est ici
Donc effectivement cela permet de trouver ceux qui ont moins pignon sur rue.
4778A est un « bon » code NAF, il n’y a que des opticiens dedans. Il y a certains codes NAF qui sont un peu fourre tout et qui sont inutilisables sans recoupement.