Connaissez-vous un moyen de connaître l’industrie / la verticale / la catégorie d’un nom de domaine ?
En fait, j’ai déjà des scrappers sur tous le web, mais pour l’instant, on se concentre sur la détection des technologies (comme BuiltWith, mais en moins cher, et avec des techs récentes en plus).
Le calcul de la catégorie pourrait se faire, mais si vous avez des astuces sur la question, ce serait génial… J’ai vu qu’il y avait Amazon AWIS, par contre c’est assez cher au-delà de 1M de requêtes.
Je ne suis pas totalement sûr d’avoir compris, mais est-ce que trouver le code NAF correspondant à ces sites serait satisfaisant pour toi ? Si c’est le cas, je suggère :
GET la page d’accueil du site
Recherche d’un lien contenant la chaîne « mention » pour GET la page des mentions légales
Avec une expression régulière, récupérer toutes les chaines de caractères de 14 chiffres consécutifs en ne tenant pas compte des espaces
Filtrer les nombres pour ne garder que ceux correspondants à un SIRET valide grâce à l’algo de luhn
Penser à faire une liste des SIRET des hébergeurs (ovh, ionos…) qui apparaissent souvent sur les pages de mentions légales
Un coup d’API SIRENE pour récupérer le NAF correspondant au SIRET du nom de domaine