Scraping cache Google

Hello les GH :smiley:

je cherche à scraper les urls google cache et le contenu html du cache à partir d’un footprint du type : site:monsite.com

Car le site en question force le login via une sécurité difficile à contourner et Google doit être whitelisté.

Des idées ?

merci :pray:

cache:tonsite ou change l’user agent

1 « J'aime »

yes je suis en train de tester comme cela
merci :blush:

Hello ! :smile:

Tu peux aussi utiliser un tool pour voir si « Google » est en whitelist pour la cible (ça change le user agent) :

Botsimulator ou Totheweb

Ça me rappelle quand l’on essayé d’étudier les bouillies SEO de certains sites (qui vont jusqu’à inclure un no-cache pour éviter d’être étudié)

En espérant que ça puisse aider :v:
Yesouicom

2 « J'aime »

Après scraper avec le useragent de Goolge ça marche rarement, car les sites whitelist les IP de GG.

1 « J'aime »