Dans l’objectif de rechercher automatiquement des mails sur des URL via Octoparse, je cherche à vérifier la validité des URL que je teste en avance afin de gagner du temps et de mettre de côté celle qui ne sont plus valide car trop ancienne.
Si quelqu’un connait un outil qui permet de faire ca, ca m’intéresse bien
Merci
J’ai une méthode sur octoparse qui pourrait fonctionner, tu scrapes tes sites et tu demandes à octoparse de scraper les balises meta (description, title etc…) et tu regardes les valeurs vide ou redondantes (si le site n’existe pas il y a peut être quand même une meta title)
le code de retour est une première indication, sous réserve de prendre en compte aussi les redirections (code 301 …)
mais par expérience, ,çà ne suffit pas toujours, des fois le code est 200 mais la page affiche « cette (page/fiche/information) n’existe plus », dans ce cas il faut faire en plus une recherche dans le contenu textuel de la page
Personnellement j’utilise Screaming Frog pour vérifier si le statut code est bien 200, 301 ou autre. Après tu peux aussi regarder le h1 ou la title pour vérifier si tu n’as pas d’erreur. Tu élimine déjà pas mal d’url.
Le logiciel te permet d’importer jusqu’à 500 url qu’il va checker en mode Liste.
Hey Kevin, je dev justement une Apps Script sur ce use-case sauf que je passe par notre infra pour GET les sites (et donc contourner les anti-bots & co) !