Obtenir tous les URL d'un domaine

Morgan_Bancel · Avril 1, 2016, 1:43

Salut les GH,

Je cherche à obtenir tous les URL existants référencés ou non à partir d’un domaine.

Petit exemple : j’ai: monsite.com je veux obtenir tous les

J’ai tenté avec l’opérateur google site:monsite.com mais je n’ai pas été convaincu du résultat, le traitement de la data via les réponses Google est un peu pénible.

J’ai tenté Xenu ou Screaming Frog mais j’ai seulement réussi à obtenir tous les liens contenu sur une page d’un URL. Par exemple tous les liens sur la page monsite.com

Connaîtriez-vous quelque chose ?

Merci à vous

Edit: sur un site qui n’est pas le mien

RemiC · Avril 1, 2016, 2:54

Bonjour,
Je ne veux pas dire de bêtises, mais si tu utilise le CMS wordpress avec YoastSEO tu as un sitemap généré automatiquement sur l’url /sitemap_index.xml.
Dans mes souvenirs Yoast répertorie toutes les pages excepté celles que tu as décidé de ne pas afficher aux moteurs de recherche. Du coup si tu les veux toutes, tu prends celles que tu as caché + celles disponibles et tu as l’ensemble de tes pages.
Après si tes urls ne sont pas accessible via un chemin sur le site, je ne pense pas que tu puisse les retrouver à l’aide d’un outil externe.

Morgan_Bancel · Avril 1, 2016, 3:01

Salut Remi,

Merci pour ta réponse. Ma question en revanche manquait d’une précision : ce n’est pas mon site dont j’ai besoin de récolter les URL mais ceux des autres

En gros j’ai un domaine de site qui possède des dizaines d’URL cachant des annuaires.
Exemple de site: annuairedepiscou.com

annuairedepiscou.com/lyon (pour l’annuaire de Lyon)
annuairedepiscou.com/marseille (pour l’annuaire de Marseille)

…

Je récupère tout ces URLs et je scrape les annuaires. Seulement tout ces URL ne sont répertoriées nulle part. Il faut donc que je me procure la liste d’une manière ou d’une autre

cebri · Avril 2, 2016, 6:34

La réponse de @RemiC reste valable, le sitemap.xml reste une bonne piste pour débuter (essaies de taper l’URL /sitemap.xml ou regardés dans le /robots.txt où il se trouve)

Sinon n’importe quel crawler web fera l’affaire. Si tu es sur Mac, essaies screamingfrog (xenu sur PC).

Morgan_Bancel · Avril 2, 2016, 9:07

Salut Brice,

Merci pour ta réponse, j’espère que ça va

La technique du sitemap me renvoie vers une erreur et je dois mal utiliser Screaming Frog ou Xenu car j’avais déjà tenté et je ne trouve que les liens présent sur la page de l’URL.

Tu as une méthode pour ce dont j’ai besoin ?

Bon samedi !

camille · Avril 2, 2016, 10:47

Sur Xenu, il faut que tu règle la profondeur d’exploration au maximum. (maximum depth)

AOnnen · Avril 2, 2016, 3:40

Salut Morgan,
Tu pourrais jeter un oeil au projet commoncrawl.org
Ils exposent un outil pour chercher dans leurs archives toutes les pages crawlées par site web.

Morgan_Bancel · Avril 2, 2016, 5:10

Merci je regarde ça

camille · Avril 2, 2016, 6:32

Tu peux tenter http://crawly.diffbot.com/ aussi.

conquering_lion · Avril 3, 2016, 7:34

hello,
pour ce genre d’opé j’utilise le link extractor de scrapebox… en itérant plusieurs fois
après il faut que les pages soient linkés qlq part

cebri · Avril 3, 2016, 12:49

Ça va nickel et toi ?
autre technique, utiliser l’API Bing via blockspring en utilisant la requête « site:domain.com » et en iterant en augmentant le offset (pour prendre les pages 1, puis 2, etc.

Morgan_Bancel · Avril 5, 2016, 2:05

Qqes part sur l’URL en question tu veux dire ?

Morgan_Bancel · Avril 5, 2016, 2:06

Super merci !

Yes je vais tenter celle-ci ! Merci

conquering_lion · Avril 5, 2016, 8:00

bsr,

faut pas que ce soit des pages orphelines, càd qu’elles soient linkées nulle part

Nicolas_Laustriat · Avril 6, 2016, 9:05

hello, la solution XENU te permettra en effet de crawler toute les url de ton site.

par contre ta demande est de choper tout ce qu’il y a dans google, et là tu as potentielement un delta entre ce qui est indexé et les pages existante.
en effet certine pages peuvent etre bloqué par un noidex ou des probleme de crawl (ref nat)

ce que tu peut faire pour etre au plus juste
XENU (gratuit)
puis SCAPEBOX (payant) tu verras le delta (meme si c’ets pas ton site) et tu pourras y adjoindre d’autres indicateur par page.

++

Morgan_Bancel · Avril 6, 2016, 3:31

Salut @Nicolas_Laustriat,

Ta réponse est très pertinente merci !

Au final j’ai fait comme ceci : API Bing + API Google + Xenu pour compléter.
J’ai obtenu une belle liste que j’ai dédoublonnée Le problème c’est que je dois répeter le processus sur une quinzaine de domaines différents…lourd !

Je me tate à monté un petit outil du genre : « Direct access to all links from a domain »
En tout cas ca m’aurait bien aidé sur ce coup !

Topic terminé merci encore à tous !