Tester si une URL est valide

Bonjour à tous,

Dans l’objectif de rechercher automatiquement des mails sur des URL via Octoparse, je cherche à vérifier la validité des URL que je teste en avance afin de gagner du temps et de mettre de côté celle qui ne sont plus valide car trop ancienne.

Si quelqu’un connait un outil qui permet de faire ca, ca m’intéresse bien :slight_smile:
Merci :slight_smile:

Hello,

J’ai une méthode sur octoparse qui pourrait fonctionner, tu scrapes tes sites et tu demandes à octoparse de scraper les balises meta (description, title etc…) et tu regardes les valeurs vide ou redondantes (si le site n’existe pas il y a peut être quand même une meta title)

J’ai pas vraiment testé mais ça devrait marcher !

Check le statut code ? If 200 alors url OK, else url not ok ?

le code de retour est une première indication, sous réserve de prendre en compte aussi les redirections (code 301 …)
mais par expérience, ,çà ne suffit pas toujours, des fois le code est 200 mais la page affiche « cette (page/fiche/information) n’existe plus », dans ce cas il faut faire en plus une recherche dans le contenu textuel de la page

Personnellement j’utilise Screaming Frog pour vérifier si le statut code est bien 200, 301 ou autre. Après tu peux aussi regarder le h1 ou la title pour vérifier si tu n’as pas d’erreur. Tu élimine déjà pas mal d’url.

Le logiciel te permet d’importer jusqu’à 500 url qu’il va checker en mode Liste.

2 « J'aime »

Scrapbox avec le plugin de controle d’entete html si 200 url ok…

Merci à vous,

Je vais tester toute ces solutions qui permettent déjà de retirer une partie des faux !

C’est la meilleure solution effectivement +1

Ça peut aussi se faire sur Google Sheets avec Apps Script :

image

:point_right: Lien du Google Sheets avec le script.

J’ai récupéré le code dans cet article qui détaille bien la chose et va plus loin (création d’une mise en cache, etc.) : Lien de l’article Medium

Peut-être qu’il y aurait aussi la possibilité de faire le tips de @Daftzguen en Apps Script et de récupérer le h1 ou la title ^^

1 « J'aime »

Hey Kevin, je dev justement une Apps Script sur ce use-case sauf que je passe par notre infra pour GET les sites (et donc contourner les anti-bots & co) !

1 « J'aime »

Hey @josselin,
Hésite pas à ping quand ça sort, toujours curieux de voir :blush:

1 « J'aime »

Petit update, peut-être que ça servira à quelqu’un,

Y a la possibilité d’importer les titles ou h1 sans Apps Script dans Google Sheets en mettant ces formules dans une cellule :

Pour les titres :
=IMPORTXML("https://leszoutils.com";"//title")

Pour les h1 :
=IMPORTXML("https://leszoutils.com";"//h1")

S’en est où ça ?

En cours de dev :grin:

1 « J'aime »

Ce sujet a été automatiquement fermé après 365 jours. Aucune réponse n’est permise dorénavant.