Scraping internal links

Thomas_Lucyfer · Décembre 15, 2021, 2:06

Hello les GH,

J’ai un site sur lequel je n’ai pas de sitemap ou robots.txt et je souhaite scraper toutes les urls internes du site en question. Est-ce que quelqu’un aurait une méthode ? (il y en +200k)

Il s’agit de foundation.app (les urls des users)

Merci

lorent · Décembre 15, 2021, 3:05

Hello,
Regarde du côté:

Un tuto :

Camille · Décembre 15, 2021, 3:56

Tu peux faire ça avec Scrapebox de deux manières différentes :

Sinon Xenu (Find broken links on your site with Xenu's Link Sleuth (TM)) est très bien pour ça.

ksahin · Décembre 20, 2021, 1:19

Tu peux utiliser Screaming Frog: https://www.screamingfrog.co.uk

Ca va crawler l’intégralité du site peu importe qu’il y ai une sitemap. Tu peux ensuite exporter les URLs, tu peux faire des extractions sur le contenu du site avec des regex ou bien XPath / selecteur CSS!

julienarcin · Décembre 20, 2021, 3:43

Hello !

J’avais commencé un script rapide pour faire le scraping, mais je suis tombé là dessus :

Screen Shot 2021-12-20 at 22.40.13

Donc tu es limité à 1000 résultats sur le listing (pour info c’est Algolia derrière). Et ça me semble compliqué du coup

Thomas_Lucyfer · Décembre 20, 2021, 6:54

J’arrive pas à non plus à en scraper plus de 1000 mais par contre je pense que l’astuce serait de faire un script qui aspire les followers sur chaque profil et avec un peu de temps c’est possible de tout scraper.

Alban · Décembre 22, 2021, 12:22

Le bon vieux Xenu des familles (si vous trouvez que le logiciel est un peu creepy, ne vous renseignez pas sur son createur).

Le souci avec Xenu, c’est qu’il va crawler tous les éléments du site.
TOUS. Y compris les images. Et tous les fichiers accessoires.
Il est aussi très doué pour trouver des entrées vers des pages déclinés (les pages à paramètres).
Il en résulte qu’il sort un fichier énorme qu’il faut bien nettoyé.
La semaine dernière, sur un site marchand j’ai eu un xenu à 90k url qui une fois nettoyées n’en faisait plus que 2300.

Mais malgré ça, Xenu est une solution hyper simple dont il est dommage de se passer.