Structure d'un site web

Bonjour le Forum,

Peut etre que certains d’entre vous ont déja eut ce besoin …
Savez-vous s’il est possible de récupérer la structure d’un site web ?
Juste les répertoires et sous repertoire et a la limite les noms des fichiers mais sans les télécharger
Un peu comme un httrack mais sans tout aspirer histoire de gagner du temps …

Merci pour votre aide

Pierre

Sans les fichiers tu peux utiliser un générateur de sitemap, t’auras la majorité des URLs d’un site.
Le mieux sur ce genre de besoin un peu particulier est de te créer ton crawler qui liste les liens, voir les ressources si tu le souhaites.
Ca dépend du site bien sûr mais ça reste le meux je trouve.

Il doit exister des extensions navigateurs pour ça aussi surement, et au pire du pire tu peux te créer une function JS avec fetch pour générer la structure

1 J'aime

Merci, je vais creuser ce générateur de sitemap, je suis plus python que JS mais il doit exister des solutions :wink:

En python ça doit se faire simplement avec requests+beautifulsoup.

En page d’entrée la homepage du site (ou même l’ensemble des urls que tu trouves sur google avec le filtre site:domain.com). Un find_all('a') en vérifiant que c’est un lien interne, et tu visites les liens un par un pour en trouver des nouveaux etc

1 J'aime

Pour obtenir la structure d’un site d’une manière très visuelle, tu peux utiliser visualsitemapper

Si tu veux exporter l’ensemble des urls tu peux passer par Xenu en téléchargement gratuit ici

2 J'aimes

Bonjour,

J’ai creuser la question (sauf Xenu, je suis sous mac) sans resultat :frowning:
Prenons comme exemple le site : « www.doyoubuzz.com » qui je pense parle à beaucoup
Il semblerait que cela soit structuré avec un truc du type :
https://www.doyoubuzz.com/angelique-robert
https://www.doyoubuzz.com/angelique-robert/cv/jobs
https://www.doyoubuzz.com/angelique-robert/cv/trainings

Et je n’arrive pas à récupérer cette information de tous les repertoires derrières « www.doyoubuzz.com » :
angelique-robert, angelique-toto …

Si vous avez une idée ??
Google y arrive très bien mais avec les limitations que l’on connais

Pierre

1 J'aime

+1 pas de besoin spécifique, mais intéressé de savoir comment :+1:

+1 @pierre.falque

Quand tu parles de répertoire tu veux en fait lister tous les liens d’un site. Et là tu as pleins de méthodes possibles

  1. Des outils de listing auto, genre générateur de sitemaps
  2. Des outils fait maisons de scraping, qui récupère uniquement les liens et te mets l’ensemble sous forme de graph
  3. Utiliser les listings des moteurs de recherches, par ex via site:doyoubuzz.com
  4. Utiliser les services d’archives web, genre https://web.archive.org/web/sitemap/doyoubuzz.com (certaines API existent aussi)
  5. Télécharger les téra-octects dispo des archives web, et scrape dedans pour faire ta découverte

Si tu veux quelque chose d’exhaustif, il faudra passer par la solution 2.

Bonjour Raz,

Merci pour tes indications, c’est exactement cela :slight_smile:

J’ai testé le point 4, mais il me semble que ce ne soit pas exhaustif. Dans exemple, si on prend l’année 2019, le premier lien su sitemap est « doyoubuzz.com/aiman-najjar » et le dernier « doyoubuzz.com/camille-planque » et comme c’est classé par ordre alphabétique, je doute aue l’on s’arrete à la lettre C de camille ;-))
A moins que j’ai loupé quelque chose pour bypasser cette limitation ?

Je continue a creuser …

Pierre

Il y a 381 000 résultats avec https://www.google.fr/search?q=site%3Adoyoubuzz.com

yes, mais uniquement 300 visibles :frowning:
Quand on va sur la page 3 de google search … et bien c’est la dernière visible

site:doyoubuzz.com inurl:.com/a
site:doyoubuzz.com inurl:.com/b

etc…

=> https://docs.google.com/document/d/1ydVaJJeL1EYbWtlfj9TPfBTE5IBADkQfZrQaBZxqXGs/edit

Bonjour,
Avec Screaming Frog on peut faire le job.

1 J'aime

Tu as Integrity sous mac disponible ici

@ras : J’avais déja essayé cette astuce, mais on obtient que des reponses ayant seulement le a dedans. i.e on a des ".com/ a " ou des « .com/a- » mais on ne recupère pas « .com/alain… » ou « .com/arnaud… »

@Fabien et KossSty : le résultat n’est pas mieux que httrack

Pour le moment, le meilleur résultat est avec https://web.archive.org/web/sitemap/doyoubuzz.com
Rest à comprendre comment lever cette limitation ???

SI on arrive a résoudre cette question, on peut meme imaginer de l’appliquer à « rocketreach.co » :wink:

Pierre

Si, en première page il y a par ex /aiman-najjar, mais tu auras dans tous les cas la problématique des 300 résultats, et devrais donc afiner à chaque requête, avec un dictionnaire des prénoms les plus courant par exemple. Rien qu’avec l’alphabet, ça te fais quasi 9 000 résultats. Dans tous les cas, le plus viable si tu veux un listing URL complet est ma réponse précédente

Si tu veux quelque chose d’exhaustif, il faudra passer par la solution 2.

Si tu as du mal avec le scraping, on peut en discuter en MP si tu veux

Si je comprend bien le fonctionnement de la solution 2, je scrap toutes les pages que je trouve ayant pour lien www.doyoubuzz.com avec un mode de recurrence (je rescrape les nouvelles pages identifiées) etc… jusqu’a me constituer le sitemap du site que je souhaite ?

Ma question est que dans l’exemple ci-dessus, le cas de « aiman-najjar » avec son url : www.doyoubuzz.com/aiman-najjar n’apparait dans aucune autre page, une petite recherche avec notre ami google nous le montre.
Donc : comment arriver a trouver cette url si elle n’apparait pas dans une page ?

Pierre

Si, elle est en première page de google pour moi.

Non, il faut un petit robot qui va sur le site, vas sur tous les liens, et te génère une structure. En exploration douce, le premier lancement prendra plusieurs jours à s’éxécuter, mais ensuite ce ne sera que des mises à jours

Oups pardon, je me suis mal exprimé, je voulais parler du site de doyoubuzz : ce lien n’apparait dans aucune page du site doyoubuzz, donc pas possible de la trouver avec un bot de construction de sitemap.

Ok pour la deuxième partie :wink:

Pierre