Sscraper le sitemap, cherchez les pages qui contiennent « mention » ou « legal », « privacy » etc., puis scraper chaque page en cherchant SAS/SARL et autres sigles.
Pour le parsing du SIREN il y a encore plus simple:
Dans les mentions légales, supprimer tous les espaces et points
Extraire tous les nombres de 9 chiffres avec une regex
Les valider avec la formule de luhn: il y a des bibliothèques toutes prêtes pour ça
Les numéros SIREN, comme les cartes bancaires, utilisent la formule de Luhn: les 8 premiers chiffres déterminent la société, le 9ème chiffre n’est qu’une clef de validation
PS: pensez à faire une liste d’exclusion des SIREN des grands hébergeurs type OVH qui apparaissent parfois dans les mentions légales.
Ça, bien entendu, c’est si tu as besoin d’un système scalable et pas cher.
Si c’est pour un petit volume en one shot, utilise directement societeinfo.com
Pour les urls, je préciserais que le plus simple reste de scraper la homepage d’abord et d’en extraire tous les liens contenant quelques mots clés: « mention », « politique », « propos » …
Ce sera plus exhaustif qu’une liste pré-établie car chaque sitemap est différent