Merci, je vais creuser ce générateur de sitemap, je suis plus python que JS mais il doit exister des solutions
En python ça doit se faire simplement avec requests+beautifulsoup.
En page d’entrée la homepage du site (ou même l’ensemble des urls que tu trouves sur google avec le filtre site:domain.com). Un find_all('a')
en vérifiant que c’est un lien interne, et tu visites les liens un par un pour en trouver des nouveaux etc
Pour obtenir la structure d’un site d’une manière très visuelle, tu peux utiliser visualsitemapper
Si tu veux exporter l’ensemble des urls tu peux passer par Xenu en téléchargement gratuit ici
Bonjour,
J’ai creuser la question (sauf Xenu, je suis sous mac) sans resultat
Prenons comme exemple le site : « www.doyoubuzz.com » qui je pense parle à beaucoup
Il semblerait que cela soit structuré avec un truc du type :
https://www.doyoubuzz.com/angelique-robert
https://www.doyoubuzz.com/angelique-robert/cv/jobs
https://www.doyoubuzz.com/angelique-robert/cv/trainings
…
Et je n’arrive pas à récupérer cette information de tous les repertoires derrières « www.doyoubuzz.com » :
angelique-robert, angelique-toto …
Si vous avez une idée ??
Google y arrive très bien mais avec les limitations que l’on connais
Pierre
+1 pas de besoin spécifique, mais intéressé de savoir comment
Quand tu parles de répertoire tu veux en fait lister tous les liens d’un site. Et là tu as pleins de méthodes possibles
- Des outils de listing auto, genre générateur de sitemaps
- Des outils fait maisons de scraping, qui récupère uniquement les liens et te mets l’ensemble sous forme de graph
- Utiliser les listings des moteurs de recherches, par ex via site:doyoubuzz.com
- Utiliser les services d’archives web, genre https://web.archive.org/web/sitemap/doyoubuzz.com (certaines API existent aussi)
- Télécharger les téra-octects dispo des archives web, et scrape dedans pour faire ta découverte
Si tu veux quelque chose d’exhaustif, il faudra passer par la solution 2.
Bonjour Raz,
Merci pour tes indications, c’est exactement cela
J’ai testé le point 4, mais il me semble que ce ne soit pas exhaustif. Dans exemple, si on prend l’année 2019, le premier lien su sitemap est « doyoubuzz.com/aiman-najjar » et le dernier « doyoubuzz.com/camille-planque » et comme c’est classé par ordre alphabétique, je doute aue l’on s’arrete à la lettre C de camille ;-))
A moins que j’ai loupé quelque chose pour bypasser cette limitation ?
Je continue a creuser …
Pierre
yes, mais uniquement 300 visibles
Quand on va sur la page 3 de google search … et bien c’est la dernière visible
site:doyoubuzz.com inurl:.com/a
site:doyoubuzz.com inurl:.com/b
etc…
=> https://docs.google.com/document/d/1ydVaJJeL1EYbWtlfj9TPfBTE5IBADkQfZrQaBZxqXGs/edit
Bonjour,
Avec Screaming Frog on peut faire le job.
@ras : J’avais déja essayé cette astuce, mais on obtient que des reponses ayant seulement le a dedans. i.e on a des ".com/ a " ou des « .com/a- » mais on ne recupère pas « .com/alain… » ou « .com/arnaud… »
@Fabien et KossSty : le résultat n’est pas mieux que httrack
Pour le moment, le meilleur résultat est avec https://web.archive.org/web/sitemap/doyoubuzz.com
Rest à comprendre comment lever cette limitation ???
SI on arrive a résoudre cette question, on peut meme imaginer de l’appliquer à « rocketreach.co »
Pierre
Si, en première page il y a par ex /aiman-najjar, mais tu auras dans tous les cas la problématique des 300 résultats, et devrais donc afiner à chaque requête, avec un dictionnaire des prénoms les plus courant par exemple. Rien qu’avec l’alphabet, ça te fais quasi 9 000 résultats. Dans tous les cas, le plus viable si tu veux un listing URL complet est ma réponse précédente
Si tu veux quelque chose d’exhaustif, il faudra passer par la solution 2.
Si tu as du mal avec le scraping, on peut en discuter en MP si tu veux
Si je comprend bien le fonctionnement de la solution 2, je scrap toutes les pages que je trouve ayant pour lien www.doyoubuzz.com avec un mode de recurrence (je rescrape les nouvelles pages identifiées) etc… jusqu’a me constituer le sitemap du site que je souhaite ?
Ma question est que dans l’exemple ci-dessus, le cas de « aiman-najjar » avec son url : www.doyoubuzz.com/aiman-najjar n’apparait dans aucune autre page, une petite recherche avec notre ami google nous le montre.
Donc : comment arriver a trouver cette url si elle n’apparait pas dans une page ?
Pierre
Si, elle est en première page de google pour moi.
Non, il faut un petit robot qui va sur le site, vas sur tous les liens, et te génère une structure. En exploration douce, le premier lancement prendra plusieurs jours à s’éxécuter, mais ensuite ce ne sera que des mises à jours
Oups pardon, je me suis mal exprimé, je voulais parler du site de doyoubuzz : ce lien n’apparait dans aucune page du site doyoubuzz, donc pas possible de la trouver avec un bot de construction de sitemap.
Ok pour la deuxième partie
Pierre
Ah oui, ok. Du coup le scraping via le SERP (google, bing, duckduck, etc…) me semble le plus pertinent, en faisant évoluer les critères de recherches pour avoir un maximum de résultat à termes.
D’autres idées possibles : Techniques de collecte des CV Remixjobs, Doyoubuzz, Apec, Pole Emploi,
Dommage, la soluce des sitemap d’archive.org me plaisait bien si seulement ce n’était pas limité
Pierre