J'ai crawlé 3M+ sites web et détecté leurs technos

Salut à tous,

Depuis quelques semaines je bosse sur un side project : un crawler qui analyse la stack technique des entreprises à grande échelle.

Ce que j’ai en base aujourd’hui :
• 3M+ entreprises analysées
• 6,000 technos détectées (Shopify, HubSpot, Stripe, WordPress, React, etc.)
• Pour chaque entreprise : tech stack, fondateurs, nombre d’employés, revenue estimé, dernière levée, réseaux sociaux, date de création, headquarter location, …

En gros c’est un BuiltWith ou Wappalyzer mais avec de l’enrichissement entreprise en plus.

J’hésite sur le meilleur angle pour monétiser. Pour l’instant je pense à :
• Vente de datasets/listes segmentées (ex: « tous les Shopify en France avec +10 employés »)
• API de lookup pour intégrer dans les CRM, etc..
• Abo mensuel avec X lookups

Mais je suis sûr que je rate des trucs. Vous verriez quoi comme use case ? En tant que Growth, vous paieriez pour quoi exactement ?

Si ça intéresse quelqu’un je peux partager un sample gratuit pour tester la qualité des données.

Salut Ayoub,

C’est assez marrant, je travaille sur le même type de projet perso en ce moment. Pour moi la stack technique est importante mais elle ne fait pas tout. La valeur réside dans le fait de savoir ce que les gens en font pour être en mesure de définir des axes d’amélioration rapides et efficaces. pas de blabla, du résultat en somme :slight_smile: . Je n’ai pas trop le temps de m’étaler sur le sujet à l’instant T mais si tu veux on peut en discuter plus longuement plus tard :wink:

Belle journée à toi !

Antoine

si tu veux avoir un dataset complet avec tous les sites il y a des projets OS qui aspirent tout le web https://commoncrawl.org/

Les use cases, il y en a plein, mais focus sur les technos, à mon avis, le reste, c’est secondaire.

Extension free, faire payer les exports en CSV ou API, ajouter du monitoring.

Builtwith au dessus de Wappa mais grave moyen de faire mieux si le sujet t’intéresse.

GL

2 « J'aime »

Yes c’est ce que je me dis aussi pour le début, du coup j’essaye de prospecter les boîtes que j’ai en db avec des listes qui pourraient les intéresser, comme par exemple des agences HubSpot avec une liste d’entreprises utilisant HubSpot. À voir ce que ça donne.

Hello Antoine !

Ah sympa ! Ça serait avec plaisir de voir ce sur quoi tu travailles !

Salut Ayoub,

Cool ton projet ! De notre côté on a un projet de scraping Google Maps, et comme on crawle aussi les sites web des entreprises, on s’est retrouvés avec pas mal de data sur les stacks techniques. Du coup on s’est dit autant en faire quelques études, si ça t’intéresse :

GL pour la suite !

2 « J'aime »

Hello,

J’ai aussi 2 side projects https://www.techlens.app/ && https://www.storeradar.io/ qui sont assez équivalent. Je bosse chez hunter.io et c’est aussi un aspect qu’on fait.

Si je peux te faire gagner du temps, on peut en discuter.

Mais si veux mon avis:

  • les technographics c’est un business dont le pricing est tiré vers le bas
  • Les technographics n’intéressent pas grand monde, c’est une commodité. Un feature que les gros comme hunter / apollo / instantly ont car c’est un must have mais l’utilisation est méga faible.

Sur techlens et storeradar j’ai ~300 users sur chaque app et zéro qui paie.

Bref je veux pas te casser ton trip mais je suis passé par là il y a 6 mois, je préfère te donner mon ressenti.

1 « J'aime »

Hello Ayoub

bravo de te lancer sur ce sujet.

Chez lebot.in, on propose égalment ce type de données depuis 2 ans. On accompagne des grands comptes dans le transport ou des psp. Voici les quelques retours que je peux te donner :

  1. c’est pas la taille qui compte mais la fraicheur de tes datas. Au jeu de celui qui a la plus grosse base, on peut difficielement gagner et côté business modell ca pousse vers le bas. Ton enjeu est d’avoir une data propre, actuelle, fiable. Tout l’inverse d’un builtwith ou storeleads
    2. la techno est un point de départ et tu vas devoir croiser avec d’autres sources de données. A moins de vouloir vendre des études, tes clients veulent contacter les entreprises et les décisionnaires qui pilotent ces sites
    3. 80% des domains n’ont pas de page linkedin réclamée / gérée par une entreprise. Partir sur une promesse du style Shopify +10 employé est intéressante mais va diminuer la taille du segment
    4. ton enjeu c’est de vendre de la mise à jour de données. Le marché rétrécit et l’aquisition de marchands n’est plus aussi porteuse qu’il y a 5 à 10 ans

    A ta dispo en MP pour t’en dire plus

hey, exactement ce que je cherche (e-commerce)

cool la page de presentation

par contre, les tarifs “hebdomadaires” ?