Hello les GH
je cherche à scraper les urls google cache et le contenu html du cache à partir d’un footprint du type : site:monsite.com
Car le site en question force le login via une sécurité difficile à contourner et Google doit être whitelisté.
Des idées ?
merci
cache:tonsite ou change l’user agent
1 « J'aime »
yes je suis en train de tester comme cela
merci
Hello !
Tu peux aussi utiliser un tool pour voir si « Google » est en whitelist pour la cible (ça change le user agent) :
Botsimulator ou Totheweb
Ça me rappelle quand l’on essayé d’étudier les bouillies SEO de certains sites (qui vont jusqu’à inclure un no-cache pour éviter d’être étudié)
En espérant que ça puisse aider
Yesouicom
2 « J'aime »
Après scraper avec le useragent de Goolge ça marche rarement, car les sites whitelist les IP de GG.
1 « J'aime »