Récupérer le nom d'entreprise via le nom de domaine

Bonjour la communauté !

Je suis à la recherche d’une solution qui permettrait de trouver le nom d’une entreprise via le nom de domaine directement sur un fichier excel.

Est-ce que quelqu’un a déjà été confronter à ce genre de problème, aurait une solution à proposer ?

MERCI :slightly_smiling_face:

Hello,

Pour quel volume de noms de domaines à peu près ? :slight_smile:

Définir des URL type genre /mentions-legales ou /terms et prendre le paragraphe uniquement autour des numéros SIREN obligatoires ?

1 « J'aime »

Oui c’est ce que je ferais aussi.

Sscraper le sitemap, cherchez les pages qui contiennent « mention » ou « legal », « privacy » etc., puis scraper chaque page en cherchant SAS/SARL et autres sigles.

Pour le parsing du SIREN il y a encore plus simple:

  • Dans les mentions légales, supprimer tous les espaces et points
  • Extraire tous les nombres de 9 chiffres avec une regex
  • Les valider avec la formule de luhn: il y a des bibliothèques toutes prêtes pour ça

Les numéros SIREN, comme les cartes bancaires, utilisent la formule de Luhn: les 8 premiers chiffres déterminent la société, le 9ème chiffre n’est qu’une clef de validation :slight_smile:

PS: pensez à faire une liste d’exclusion des SIREN des grands hébergeurs type OVH qui apparaissent parfois dans les mentions légales.

Ça, bien entendu, c’est si tu as besoin d’un système scalable et pas cher.
Si c’est pour un petit volume en one shot, utilise directement societeinfo.com :slight_smile:

2 « J'aime »

@deefuz a tout compris :slight_smile:

Merci Clément :slight_smile:
Antoine @societeinfo

1 « J'aime »

Pour les urls, je préciserais que le plus simple reste de scraper la homepage d’abord et d’en extraire tous les liens contenant quelques mots clés: « mention », « politique », « propos » …

Ce sera plus exhaustif qu’une liste pré-établie car chaque sitemap est différent :slight_smile:

@RMG si tu souhaites un pro pour te développer le script n’hésite pas à m’envoyer un mp :slight_smile:

1 « J'aime »