Enrichir data open source

Bonjour à tous,

Je souhaite enrichir la data que j’extrait depuis l’annuaire des entreprises. Je récupère déjà Siren, Nom d’entreprise, code APE, Taille etc..

Je voudrais maintenant enrichir cette data avec nom des personnes, poste, site web, linkedin etc.. mais je bloque un peu, je ne sais pas quelle méthode, outil privilégié.

Que me conseillez-vous ? Sachant que je souhaite tout faire sur claude code donc idéalement accès (API, MCP)

Merci pour votre aide.

Hello Karim,

si tu as le budget, Pappers est une source relativement propre pour ton besoin. Passe par l’api plus que par le mcp pour économiser tes tokens.

Si tu veux le faire en custom, creuse sur la serp + vérification des mentions legales pour la récupération des sites. Généralement la 2eme phase n’est pas faite sur pas mal d’outils et tu te retrouves avec des faux positifs.

Une fois que tu auras le domain, il sera plus simple de trouver la page linkedin entreprise si elle existe. A nouveau pense à vérifier les résultats en comparant par exemple ce qui est décrit dans le site vs description linkedin + match domain

et à ta dispo si tu as besoin de partir d’un set de donnée propre. on A 500k siren matchés avec un siren

Salut Nicolas,

Merci pour ta réponse.

Justement j’avais étudié la solution Pappers et je la trouvais excessivement chère.

Tu t’en sors pour combien en moyenne sur une ligne enrichie ?

J’ai identifié quelques outils aussi pour scraper linkedin mais je ne sais pas si le match nom data.gouv / Linkedin se fait bien.

alors pour le match linkedin, oublie les solutions comme soc info ou un pharow. J’ai pu constater qu’a minima que 20% des pages entreprises ne sont pas les bonnes si on suit le process siren → linkedin-page→ verification du siren. Par ailleurs, le % d’entreprise qui ont une page linkedin peut varier très fortement en fonction des verticales. Sur le ecom, tu as max 30% des boites par ex

Pour ce qui est du cout, on vend l’identification domain→ siren dans les 20c avec remboursement si mis match

sur ce type de recherche, j’ai un flux siret>google maps>website>linkedin avec en // du serp pour valider.