Comment trouver la catégorie d'un site ?

Hello à tous !

Connaissez-vous un moyen de connaître l’industrie / la verticale / la catégorie d’un nom de domaine ?

En fait, j’ai déjà des scrappers sur tous le web, mais pour l’instant, on se concentre sur la détection des technologies (comme BuiltWith, mais en moins cher, et avec des techs récentes en plus).

Le calcul de la catégorie pourrait se faire, mais si vous avez des astuces sur la question, ce serait génial… J’ai vu qu’il y avait Amazon AWIS, par contre c’est assez cher au-delà de 1M de requêtes.

Merci !

L’API de majestic

Via https://twitter.com/Smadaleno/status/1217132414318923776

2 J'aimes

Hello @Romain_Carpentier,

Je ne suis pas totalement sûr d’avoir compris, mais est-ce que trouver le code NAF correspondant à ces sites serait satisfaisant pour toi ? Si c’est le cas, je suggère :

  • GET la page d’accueil du site
  • Recherche d’un lien contenant la chaîne « mention » pour GET la page des mentions légales
  • Avec une expression régulière, récupérer toutes les chaines de caractères de 14 chiffres consécutifs en ne tenant pas compte des espaces
  • Filtrer les nombres pour ne garder que ceux correspondants à un SIRET valide grâce à l’algo de luhn
  • Penser à faire une liste des SIRET des hébergeurs (ovh, ionos…) qui apparaissent souvent sur les pages de mentions légales
  • Un coup d’API SIRENE pour récupérer le NAF correspondant au SIRET du nom de domaine :wink:

Thanks guys! Merci pour vos approches.

1 J'aime

Les services cités dans la video de Stéphane :