Je souhaite enrichir la data que j’extrait depuis l’annuaire des entreprises. Je récupère déjà Siren, Nom d’entreprise, code APE, Taille etc..
Je voudrais maintenant enrichir cette data avec nom des personnes, poste, site web, linkedin etc.. mais je bloque un peu, je ne sais pas quelle méthode, outil privilégié.
Que me conseillez-vous ? Sachant que je souhaite tout faire sur claude code donc idéalement accès (API, MCP)
si tu as le budget, Pappers est une source relativement propre pour ton besoin. Passe par l’api plus que par le mcp pour économiser tes tokens.
Si tu veux le faire en custom, creuse sur la serp + vérification des mentions legales pour la récupération des sites. Généralement la 2eme phase n’est pas faite sur pas mal d’outils et tu te retrouves avec des faux positifs.
Une fois que tu auras le domain, il sera plus simple de trouver la page linkedin entreprise si elle existe. A nouveau pense à vérifier les résultats en comparant par exemple ce qui est décrit dans le site vs description linkedin + match domain
et à ta dispo si tu as besoin de partir d’un set de donnée propre. on A 500k siren matchés avec un siren
alors pour le match linkedin, oublie les solutions comme soc info ou un pharow. J’ai pu constater qu’a minima que 20% des pages entreprises ne sont pas les bonnes si on suit le process siren → linkedin-page→ verification du siren. Par ailleurs, le % d’entreprise qui ont une page linkedin peut varier très fortement en fonction des verticales. Sur le ecom, tu as max 30% des boites par ex
Pour ce qui est du cout, on vend l’identification domain→ siren dans les 20c avec remboursement si mis match