J’ai tenté avec l’opérateur google site:monsite.com mais je n’ai pas été convaincu du résultat, le traitement de la data via les réponses Google est un peu pénible.
J’ai tenté Xenu ou Screaming Frog mais j’ai seulement réussi à obtenir tous les liens contenu sur une page d’un URL. Par exemple tous les liens sur la page monsite.com
Bonjour,
Je ne veux pas dire de bêtises, mais si tu utilise le CMS wordpress avec YoastSEO tu as un sitemap généré automatiquement sur l’url /sitemap_index.xml.
Dans mes souvenirs Yoast répertorie toutes les pages excepté celles que tu as décidé de ne pas afficher aux moteurs de recherche. Du coup si tu les veux toutes, tu prends celles que tu as caché + celles disponibles et tu as l’ensemble de tes pages.
Après si tes urls ne sont pas accessible via un chemin sur le site, je ne pense pas que tu puisse les retrouver à l’aide d’un outil externe.
Merci pour ta réponse. Ma question en revanche manquait d’une précision : ce n’est pas mon site dont j’ai besoin de récolter les URL mais ceux des autres
En gros j’ai un domaine de site qui possède des dizaines d’URL cachant des annuaires.
Exemple de site: annuairedepiscou.com
Je récupère tout ces URLs et je scrape les annuaires. Seulement tout ces URL ne sont répertoriées nulle part. Il faut donc que je me procure la liste d’une manière ou d’une autre
La réponse de @RemiC reste valable, le sitemap.xml reste une bonne piste pour débuter (essaies de taper l’URL /sitemap.xml ou regardés dans le /robots.txt où il se trouve)
Sinon n’importe quel crawler web fera l’affaire. Si tu es sur Mac, essaies screamingfrog (xenu sur PC).
La technique du sitemap me renvoie vers une erreur et je dois mal utiliser Screaming Frog ou Xenu car j’avais déjà tenté et je ne trouve que les liens présent sur la page de l’URL.
Salut Morgan,
Tu pourrais jeter un oeil au projet commoncrawl.org
Ils exposent un outil pour chercher dans leurs archives toutes les pages crawlées par site web.
Ça va nickel et toi ?
autre technique, utiliser l’API Bing via blockspring en utilisant la requête « site:domain.com » et en iterant en augmentant le offset (pour prendre les pages 1, puis 2, etc.
hello, la solution XENU te permettra en effet de crawler toute les url de ton site.
par contre ta demande est de choper tout ce qu’il y a dans google, et là tu as potentielement un delta entre ce qui est indexé et les pages existante.
en effet certine pages peuvent etre bloqué par un noidex ou des probleme de crawl (ref nat)
ce que tu peut faire pour etre au plus juste
XENU (gratuit)
puis SCAPEBOX (payant) tu verras le delta (meme si c’ets pas ton site) et tu pourras y adjoindre d’autres indicateur par page.
Au final j’ai fait comme ceci : API Bing + API Google + Xenu pour compléter.
J’ai obtenu une belle liste que j’ai dédoublonnée Le problème c’est que je dois répeter le processus sur une quinzaine de domaines différents…lourd !
Je me tate à monté un petit outil du genre : « Direct access to all links from a domain »
En tout cas ca m’aurait bien aidé sur ce coup !