Pensez vous possible de pouvoir retrouver le site Web d’une société à partir sa raison sociale / nom ? Je voudrais collecter cette info plutôt gratuitement car les acteurs du marché sont plutôt onéreux quand on atteint des gros volumes. Merci d’avance !
Hello, sujet pas simple, surtout si tu as un gros volume (> 50000). La taille et le type des boîtes jouent pas mal (= si boîtes < 10 salariés ça risque vite de tourner à l’enfer)
Google est ton ami,
Les proxies FR aussi !
Tu as intérêt à te construire une grosse liste d’exclusion (societe.com, Kompass, …) et à appeler les 50 premiers résultats.
Sinon, je suis fan de societeinfo.
Dans tous les cas ça vaut le coup de se faire un petit httpStatus pour vérifier que le knowledge graph ne te renvoie pas de la m…
Tu prends l’open data de l’Afnic et la base de données de tous les domaines en .com déposé par des français (ça fait plus de 60 000 000 de domaines).
Tu regardes si le domaine répond, tu scrappes le site et tu viens chercher le siren/siret dans les mentions légales, tu les rapproches de l’open data de l’Insee et tu as les sites web des sociétés.
Tu complètes avec les sites des fiches LinkedIn des sociétés françaises, tu ajoutes quelques annuaires (Kompass, europages, pagesjaunes,…) et tu auras une première base de plus de 2 000 000 de sites que tu pourras rapprocher d’une société.
Sinon tu me demandes ce qui t’intéresse et je te l’extrais…
@steola merci pour le renseignement! N’étant vraiment pas technicien, peux tu intervenir en Freelance sur ce genre de missions? Je suis personnellement incapable de mettre au point un script de Scraping…
Merci pour ton aide et ton retour en tout cas, c’est hyper appréciable!
Hello @steola tu parles de l’AFNIC, flux que j’ai étudié mais il semble n’y avoir que les noms de domaines en .fr. Tu parles de .com ou les as tu trouvé ?