Table correspondance SIRET <=> URL_Linkedin

Salut les experts

Je cherche à enrichir une base de données entreprises de quelques milliers de lignes. Le point de départ est un fichier SIRENE.FR

Au N° SIRET, je souhaite associer l’URL de la page Linkedin Entreprise. Existe-t-il une solution ?

Merci d’avance

Yes il y a des solutions, mais tu peux coder assez facilement ta propre solution

@Sonic vous allez jusqu’à l’url LK ou vous vous arretez au site web ?

J’ai testé plusieurs outils du style Phantombuster. Le problème est que le nom de l’entreprise diffère souvent :

exemple :
nom INSEE = CANDIA
nom LINKEDIN = Candia (Coopérative Sodiaal)

Dès que j’ai l’URL LK, je peux enrichir/scraper et croiser avec d’autres bases de données. Donc l’URL me suffit, je trouverai le site automatiquement

Si tu veux m’envoyer un fichier de 100 lignes je te montre l’output Pronto.
Je pense que ça sera pas parfait mais que ça pourra déjà te faire un benchmark

Merci je t’envoie ça

yes,
on a même des trucs plus cochons comme ce sens :slight_smile:
url_linkedin >> siret

http://api.cccompany.fr?clé_api&social_linkedin=linkedin.com/company/bouygues

{
« status »: « SUCCESS »,
« message »: null,
« errors »: null,
« userId »: 1,
« companyCount »: null,
« contactCount »: null,
« sampleCompanyCount »: 5,
« companies »: [
{
« id »: 6919571,
« parentId »: 6919575,
« siteId »: 2,
« siteCaption »: « Etablissement secondaire »,
« nationalCode »: « 57201524600174 »,
« naceCode »: null,
« url »: « https://bouygues.com »,
« name1 »: « BOUYGUES »,
« name2 »: null,
« sigle »: null,
« address1 »: null,
« address2 »: « 36 RUE DES OSIERS »,
« address3 »: null,
« postcode »: « 78310 »,
« city »: « COIGNIERES »,
« country »: « FR »,
« lang »: « FR »,
« email »: « [email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected] »,
« phone »: « 0139266242,0139266271,0141411728,0141413488,0141414923,0144201000,0144201079,0144201201,0155382609,0155442535,0174074100,0613381311,0638539767,0667069021,0687562461,0699054666,0699526036,0761642281 »,
« socialFacebook »: « Redirecting... »,
« socialLinkedin »: « Groupe Bouygues | LinkedIn »,
« employeeCount »: null,
« salesCount »: null,
« techCount »: null,
« employeeRangeId »: 3164,
« employeeRangeCaption »: « 100 à 199 salariés »,
« turnover »: null,
« turnoverCurrency »: null,
« turnoverRangeId »: null,
« turnoverRangeCaption »: null,
« nationalCodeShort »: « 572015246 »,
« tvaIntraCode »: « FR29572015246 »,
« rcsCode »: « 572 015 246 R.C.S. PARIS »,
« locationCount »: 5,
« fiscalEndMonthDay »: null,
« incomeNet »: null,
« incomeNetDate »: null,
« incomeNetN1 »: null,
« incomeNetN1Date »: null,
« capitalStock »: null,
« capitalStockDate »: null,
« siteActivityId »: 2583,
« siteActivityAlias »: « 70.10Z »,
« siteActivityCaption »: « Activités des sièges sociaux »,
« siteCreated »: « 1994-02-01 »,
« legalActivityId »: 2583,
« legalActivityAlias »: « 70.10Z »,
« legalActivityCaption »: « Activités des sièges sociaux »,
« legalCreated »: null,
« legalFormCode »: 5599,
« legalFormCaption »: « SA à conseil d’administration (s.a.i.) »,
« conventionCollectiveId »: null,
« conventionCollectiveCaption »: null,
« poCity »: null,
« poCode »: null,
« poPostcode »: null,
« decideurBirthDate »: « 1952-05-03 »,
« decideurAge »: 72,
« decideurGender »: « M »,
« decideurFirstname »: « Martin »,
« decideurLastname »: « Bouygues »,
« decideurPosition »: « Directeur général »,
« decideurEmail »: « m…ouygues.com »,
« decideurLinkedin »: « Martin Bouygues - Groupe Bouygues | LinkedIn »,
« decideurFacebook »: null,
« decideurTwitter »: null,
« decideurMobilePhone »: null,
« decideurFixedOrder »: 10,
« latitude »: null,
« longitude »: null,
« googleCategory »: « Magasin de téléphonie mobile »,
« googleMapsUrl »: null,
« googlePlaceId »: null,
« googleCid »: null,
« googleScore »: null,
« googleVotes »: null,
« text »: null,
« phoneDate »: null,
« emailDate »: null,
« linkedinDate »: null,
« facebookDate »: null,
« googleDate »: null
},
{
« id »: 6919572,
« parentId »: 6919575,
« siteId »: 2,
« siteCaption »: « Etablissement secondaire »,
« nationalCode »: « 57201524600182 »,
« naceCode »: null,
« url »: « https://bouygues.com »,
« name1 »: « BOUYGUES »,
« name2 »: null,
« sigle »: null,
« address1 »: null,
« address2 »: « 43 RUE DE SALONIQUE »,
« address3 »: null,
« postcode »: « 95100 »,
« city »: « ARGENTEUIL »,
« country »: « FR »,
« lang »: « FR »,
« email »: « [email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected] »,
« phone »: « 0139266242,0139266271,0141411728,0141413488,0141414923,0144201000,0144201079,0144201201,0155382609,0155442535,0174074100,0613381311,0638539767,0667069021,0687562461,0699054666,0699526036,0761642281 »,
« socialFacebook »: « Redirecting... »,
« socialLinkedin »: « Groupe Bouygues | LinkedIn »,
« employeeCount »: null,
« salesCount »: null,
« techCount »: null,
« employeeRangeId »: 3164,
« employeeRangeCaption »: « 100 à 199 salariés »,
« turnover »: null,
« turnoverCurrency »: null,
« turnoverRangeId »: null,
« turnoverRangeCaption »: null,
« nationalCodeShort »: « 572015246 »,
« tvaIntraCode »: « FR29572015246 »,
« rcsCode »: « 572 015 246 R.C.S. PARIS »,
« locationCount »: 5,
« fiscalEndMonthDay »: null,
« incomeNet »: null,
« incomeNetDate »: null,
« incomeNetN1 »: null,
« incomeNetN1Date »: null,
« capitalStock »: null,
« capitalStockDate »: null,
« siteActivityId »: 2583,
« siteActivityAlias »: « 70.10Z »,
« siteActivityCaption »: « Activités des sièges sociaux »,
« siteCreated »: « 1997-03-01 »,
« legalActivityId »: 2583,
« legalActivityAlias »: « 70.10Z »,
« legalActivityCaption »: « Activités des sièges sociaux »,
« legalCreated »: null,
« legalFormCode »: 5599,
« legalFormCaption »: « SA à conseil d’administration (s.a.i.) »,
« conventionCollectiveId »: null,
« conventionCollectiveCaption »: null,
« poCity »: null,
« poCode »: null,
« poPostcode »: null,
« decideurBirthDate »: « 1952-05-03 »,
« decideurAge »: 72,
« decideurGender »: « M »,
« decideurFirstname »: « Martin »,
« decideurLastname »: « Bouygues »,
« decideurPosition »: « Directeur général »,
« decideurEmail »: « m…ygues.com »,
« decideurLinkedin »: « Martin Bouygues - Groupe Bouygues | LinkedIn »,
« decideurFacebook »: null,
« decideurTwitter »: null,
« decideurMobilePhone »: null,
« decideurFixedOrder »: 10,
« latitude »: null,
« longitude »: null,
« googleCategory »: « Magasin de téléphonie mobile »,
« googleMapsUrl »: null,
« googlePlaceId »: null,
« googleCid »: null,
« googleScore »: null,
« googleVotes »: null,
« text »: null,
« phoneDate »: null,
« emailDate »: null,
« linkedinDate »: null,
« facebookDate »: null,
« googleDate »: null
},

Hello Pascal,
voici comment je procéde :
a partir du siret ou siren je fais une serp pour identifier le site
bien entendu j’ai une grosse liste d’exclusion pour virer les pages jaunes, pappers, …
une fois que tu as identifé les pages légales, je clean l’url pour tomber sur la home et avec un robot choper le lien de la page linkedin

pour la serp, serper est tres bien
pour le reste c’est du code custo

combien de lignes as tu à traiter?

1 « J'aime »

Le processus me parait excellent.

En parallèle j’ai déjà testé Pronto sur 500 lignes, et c’est déjà bien meilleur que Phantombuster.

J’attends de mon client, la liste des codes NAF à traiter. Avec cette liste, j’extrais les SIRET. Mais dans tous les cas, je serai en dessous de 5000 lignes.

M’écrire sur [email protected] pour travailler sur un devis