Scraper des entreprises en filtrant la date de création de leur site internet

Hello,
je suis web developper et je souhaite trouver moyen de prospecter des entreprises ayant un site qui date de plus de 10 ans.
Y’a t il un moyen d’appliquer un tel filtre ?

Merci :slight_smile:

1 « J'aime »

S’ils sont archivés ICI et s’il y a des enregistrements de plus de 10 ans ?
Sinon en fonction des techno/versions utilisées (Wordpress pas mis à jour) ?
Dernier indice, certaines fois il peut y avoir un
copyright 2010-2023
ou
Depuis 2008
etc…
Dans le footer du site.

1 « J'aime »

je partirais plutot sur les technos utilisées (versions html, css, php, wordpress … ), les archives çà ne dit pas grand chose, tous les sites ne sont pas archivés, et s’ils le sont depuis plus de 10 ans rien ne dit que le site n’a pas été refondu récemment

il y a des services en ligne comme builtwith qui fournissent les technos utilisés, … il doit y en avoir d’autres je n’ai pas cherché récemment

Oui pas bête du tout ! T’as des recos sur les technologie à cibler qui pourrait me faire dire que le site est vieillissant ?

toutes les technos que j’ai listées permettent de le faire, maintenant le plus facile est surement la version HTML, le HTML 5 date d’il y a 10 ans à peu près, après tu peux aussi vérifier si le site est adaptatif, en cherchant les balises mediaqueries dans le css mais çà commence à être un peu plus complexe, çà dépends de ce que tu utilises comme solution pour aller analyser ces sites

1 « J'aime »

Hello
Je checkerait la date de création du nom de domaine avec whois.

J’ai testé, mais souvent il y’a eu des refontes de site entre temps

exactement c’est ce que j’indiquais plus haut, il ne faut pas confondre date de création du domaine et création du site. Maintenant on peut imaginer plusieurs étapes

  • si l’entreprise existe depuis moins de 10 ans, le site est surement plus jeune aussi
  • dans le cas contraire si le whois indique un domaine créé il y a moins de 10 ans, c’est que le site est surement plus récent
  • enfin dans le cas contraire on vérifie les technos utilisées
1 « J'aime »