Scraping cache Google

growth-junior · Avril 28, 2020, 2:27

Hello les GH

je cherche à scraper les urls google cache et le contenu html du cache à partir d’un footprint du type : site:monsite.com

Car le site en question force le login via une sécurité difficile à contourner et Google doit être whitelisté.

Des idées ?

merci

Wladimir_Delcros · Avril 28, 2020, 9:01

cache:tonsite ou change l’user agent

growth-junior · Avril 29, 2020, 8:25

yes je suis en train de tester comme cela
merci

Kevin-Zimmermann · Avril 29, 2020, 11:54

Hello !

Tu peux aussi utiliser un tool pour voir si « Google » est en whitelist pour la cible (ça change le user agent) :

Ça me rappelle quand l’on essayé d’étudier les bouillies SEO de certains sites (qui vont jusqu’à inclure un no-cache pour éviter d’être étudié)

En espérant que ça puisse aider
Yesouicom

Camille · Avril 29, 2020, 12:26

Après scraper avec le useragent de Goolge ça marche rarement, car les sites whitelist les IP de GG.