Structure d'un site web

pierre.falque · Juin 1, 2020, 8:21

Bonjour le Forum,

Peut etre que certains d’entre vous ont déja eut ce besoin …
Savez-vous s’il est possible de récupérer la structure d’un site web ?
Juste les répertoires et sous repertoire et a la limite les noms des fichiers mais sans les télécharger
Un peu comme un httrack mais sans tout aspirer histoire de gagner du temps …

Merci pour votre aide

Pierre

raz101 · Juin 1, 2020, 9:52

Sans les fichiers tu peux utiliser un générateur de sitemap, t’auras la majorité des URLs d’un site.
Le mieux sur ce genre de besoin un peu particulier est de te créer ton crawler qui liste les liens, voir les ressources si tu le souhaites.
Ca dépend du site bien sûr mais ça reste le meux je trouve.

Il doit exister des extensions navigateurs pour ça aussi surement, et au pire du pire tu peux te créer une function JS avec fetch pour générer la structure

pierre.falque · Juin 2, 2020, 5:03

Merci, je vais creuser ce générateur de sitemap, je suis plus python que JS mais il doit exister des solutions

ClementAubry · Juin 3, 2020, 9:12

En python ça doit se faire simplement avec requests+beautifulsoup.

En page d’entrée la homepage du site (ou même l’ensemble des urls que tu trouves sur google avec le filtre site:domain.com). Un find_all('a') en vérifiant que c’est un lien interne, et tu visites les liens un par un pour en trouver des nouveaux etc

KossSty · Juin 4, 2020, 3:28

Pour obtenir la structure d’un site d’une manière très visuelle, tu peux utiliser visualsitemapper

Si tu veux exporter l’ensemble des urls tu peux passer par Xenu en téléchargement gratuit ici

pierre.falque · Juin 12, 2020, 3:11

Bonjour,

J’ai creuser la question (sauf Xenu, je suis sous mac) sans resultat
Prenons comme exemple le site : « www.doyoubuzz.com » qui je pense parle à beaucoup
Il semblerait que cela soit structuré avec un truc du type :
Angélique ROBERT - Animatrice & Chroniqueuse Radio - Voix
Expériences — Angélique ROBERT
Formations — Angélique ROBERT
…

Et je n’arrive pas à récupérer cette information de tous les repertoires derrières « www.doyoubuzz.com » :
angelique-robert, angelique-toto …

Si vous avez une idée ??
Google y arrive très bien mais avec les limitations que l’on connais

Pierre

GolanTrevize · Juin 12, 2020, 4:05

+1 pas de besoin spécifique, mais intéressé de savoir comment

xback · Juin 12, 2020, 4:35

+1 @pierre.falque

raz101 · Juin 12, 2020, 7:50

Quand tu parles de répertoire tu veux en fait lister tous les liens d’un site. Et là tu as pleins de méthodes possibles

Des outils de listing auto, genre générateur de sitemaps
Des outils fait maisons de scraping, qui récupère uniquement les liens et te mets l’ensemble sous forme de graph
Utiliser les listings des moteurs de recherches, par ex via site:doyoubuzz.com
Utiliser les services d’archives web, genre Wayback Machine (certaines API existent aussi)
Télécharger les téra-octects dispo des archives web, et scrape dedans pour faire ta découverte

Si tu veux quelque chose d’exhaustif, il faudra passer par la solution 2.

pierre.falque · Juin 13, 2020, 7:42

Bonjour Raz,

Merci pour tes indications, c’est exactement cela

J’ai testé le point 4, mais il me semble que ce ne soit pas exhaustif. Dans exemple, si on prend l’année 2019, le premier lien su sitemap est « Aiman Najjar - Resume » et le dernier « doyoubuzz.com/camille-planque » et comme c’est classé par ordre alphabétique, je doute aue l’on s’arrete à la lettre C de camille ;-))
A moins que j’ai loupé quelque chose pour bypasser cette limitation ?

Je continue a creuser …

Pierre

raz101 · Juin 13, 2020, 8:06

Il y a 381 000 résultats avec site:doyoubuzz.com - Google Zoeken

pierre.falque · Juin 13, 2020, 8:08

yes, mais uniquement 300 visibles
Quand on va sur la page 3 de google search … et bien c’est la dernière visible

raz101 · Juin 13, 2020, 8:16

site:doyoubuzz.com inurl:.com/a
site:doyoubuzz.com inurl:.com/b

etc…

=> Google Advanced Search Operators - Google Documenten

Fabien_Paupier · Juin 13, 2020, 9:25

Bonjour,
Avec Screaming Frog on peut faire le job.

KossSty · Juin 13, 2020, 9:32

Tu as Integrity sous mac disponible ici

pierre.falque · Juin 13, 2020, 4:06

@ras : J’avais déja essayé cette astuce, mais on obtient que des reponses ayant seulement le a dedans. i.e on a des ".com/ a " ou des « .com/a- » mais on ne recupère pas « .com/alain… » ou « .com/arnaud… »

@Fabien et KossSty : le résultat n’est pas mieux que httrack

Pour le moment, le meilleur résultat est avec Wayback Machine
Rest à comprendre comment lever cette limitation ???

SI on arrive a résoudre cette question, on peut meme imaginer de l’appliquer à « rocketreach.co »

Pierre

raz101 · Juin 14, 2020, 5:33

Si, en première page il y a par ex /aiman-najjar, mais tu auras dans tous les cas la problématique des 300 résultats, et devrais donc afiner à chaque requête, avec un dictionnaire des prénoms les plus courant par exemple. Rien qu’avec l’alphabet, ça te fais quasi 9 000 résultats. Dans tous les cas, le plus viable si tu veux un listing URL complet est ma réponse précédente

Si tu veux quelque chose d’exhaustif, il faudra passer par la solution 2.

Si tu as du mal avec le scraping, on peut en discuter en MP si tu veux

pierre.falque · Juin 15, 2020, 9:39

Si je comprend bien le fonctionnement de la solution 2, je scrap toutes les pages que je trouve ayant pour lien www.doyoubuzz.com avec un mode de recurrence (je rescrape les nouvelles pages identifiées) etc… jusqu’a me constituer le sitemap du site que je souhaite ?

Ma question est que dans l’exemple ci-dessus, le cas de « aiman-najjar » avec son url : Aiman Najjar - Resume n’apparait dans aucune autre page, une petite recherche avec notre ami google nous le montre.
Donc : comment arriver a trouver cette url si elle n’apparait pas dans une page ?

Pierre

raz101 · Juin 15, 2020, 1:17

Si, elle est en première page de google pour moi.

Non, il faut un petit robot qui va sur le site, vas sur tous les liens, et te génère une structure. En exploration douce, le premier lancement prendra plusieurs jours à s’éxécuter, mais ensuite ce ne sera que des mises à jours

pierre.falque · Juin 15, 2020, 2:30

Oups pardon, je me suis mal exprimé, je voulais parler du site de doyoubuzz : ce lien n’apparait dans aucune page du site doyoubuzz, donc pas possible de la trouver avec un bot de construction de sitemap.

Ok pour la deuxième partie

Pierre