Open data INPi

Hello tout le monde!

Je voudrais chopper un fichier stock du flux dirigeants complet sur l INPI mais impossible de mettre la main dessus…

Est ce qu une ame charitable pourrait m aider svp ?

le fichier sur leur FTP date d’octobre 2023 et fait 9Go, il va donc manquer toutes les entreprises créées depuis et celles qui ont changé de dirigeant. Si tu veux quelque chose de plus récent va falloir se retrousser les manches et récupérer les données via API, ou alors trouver quelqu’un qui l’a déjà fait

@DJousto

Merci beaucoup cest ce qu il me semblait… si jamais quelqu un a possibilité d avoir un fichier stock … assez recent je suis preneur

Avec les limitations du nombre d appel ce n est pas demain la veille que j aurai ceci ahah

Je reste en veille n hesitez pas … j ai besoin de cette donnee pour mon memoire .

Salut DataJedi, tu peux créer plusieurs comptes. tu t’en fait une vingtaine en moins d’1 mois tu les as tous récupéré, mais en vrai tu ne le feras pas, car c’est pas simple à faire.

Dis exactement ce que tu veux faire sur les dirigeants, je peux peut être te le faire.

On à toute la data, mais ca c’est un avantage concurrentiel qu’on ne passera pas :slight_smile: comme personne ici. Mais si tu as besoin de stats, etc … avec plaisir

@Sonic merci pour l info !

Je dois faire des stats assez poussees de repartition de « types de dirigeants » avec repartitions par sexe, fonction ages etc . Je ne sais pas si je m exprime correctement.

Y aurait il selon toi un moyen « raisonnablement » onereux de se procurer ce stock ?

Merci pour ta lumiere en tout cas :muscle:

dans ce cas un fichier de fin 2023 devrait te suffire, il y a eu des changements depuis mais pas au point de modifier grandement les statistiques, si tu t’inscrit sur leur portail tu as accès au FTP et au fichier, après faut arriver à exploiter un fichier de 9Go, je pense que c’est du json, tu peux le lire en python/pandas par morceaux (chunks) sinon ton PC va pas apprécier.

Autre solution, choisir un échantillon suffisamment grand de sociétés pour qu’il soit jugé représentatif selon les rêgles de l’échantillonnage statistique

3 « J'aime »

yes le fichier de 2023 doit suffire comme le dit @DJousto ( tu es vraiment de bon conseil)

tu le croises avec le fichier des siren pour que tu es que les sociétés actives ( facile à avoir), et tu devras couplé d’autre open data si tu veux par exemple le CA, l’effectifs…

Attention tu n’as pas le sexe du dirigeant, tu dois faire une bibliothèque pour le genderifier aussi à partir du prenom ( en tout cas c’est comme ca que je fais, ca a peut être changé depuis)

pour le type de dirigeant, ce sont ceux inscrits légalement dans l’entreprise ( tu as gérants, présidents … mais y’en a pas des masses)
il y’a environ 7-8 millions de dirigeants en france.

sinon tu écris les requêtes que tu veux et je te le fais gracieusement à partir d’octobre. il te faut justes les stats ? pas la data

1 « J'aime »

En plus de chunk, tu peux aussi selectionner les colonnes que tu ouvres avec pandas + leurs préatribuer un type. d’expériences ça libère beaaaaauuuucccoooouuppp de ram, et même avec un pc moyen tu peux espérer ouvrir un très gros échantillon.

1 « J'aime »

@Sonic @DJousto @sam42 merci pour les astuces precieuses !

Merci encore mais en parlant de cela ils n ont pas prevu d actualiser avec une livraison de stock a interval regulier ? Les limitations d appels n ont pas l air folles …

Merci encore mais en parlant de cela ils n ont pas prevu d actualiser avec une livraison de stock a interval regulier ?

si … un an !! c’est un intervalle régulier :sweat_smile: en fait on sait pas trop, l’INPI est encore un peu dépassé par les évènements depuis qu’ils ont récupéré la gestion du registre des entreprises, du coup leur API et leur FTP c’est un peu aléatoire, tu sais pas trop quand çà va marcher, y’a pas de support, et leur a du être sous-traitée au pakistan tellement elle est incompréhensible (tout comme l’API)

Aligné avec @djousto, j’ajoute un point : avant 2016-2017, il n’y avait pas d’open data tel qu’on la connaît aujourd’hui.

Le royaume de la data B2B était dominé par Kompass, Corporama… Ensuite, l’open data est apparue vers 2016, et @AOnnen a été l’un des premiers pionniers à l’exploiter, avec le « GOAT » de Societinfo, renversant ainsi la donne. La data est devenue gratuite, accessible, et la seule chose à faire était de la « valoriser ». Cependant, les indicateurs montrent que nous faisons marche arrière : on nous a déjà retiré les bénéficiaires effectifs il y a un mois ( sur le coup pappers à trop valoriser cette data en la rendant terriblement sexy, y’a des trucs qui ne plaisent pas) , et j’ai l’intime sensation qu’on cherche à restreindre l’accès à l’information. L’avenir nous le dira, mais je suis persuadé que ce n’est pas un hasard si les données concernant les dirigeants deviennent de plus en plus difficiles à obtenir, etc… Pour avoir un coup d’avance il faut regarder les directives européennes et aussi ce qui se passe dans les autres pays

2 « J'aime »

@Sonic cela semble tres technique et tres politique en effet

Si jamais une bonne ame peut me ping si par miracle un nouveau fichier stock apparait …:rofl::rofl:

En tout cas merci beaucoup pour toutes ces infos !