Proxy Google Shopping pas cher ?

FlorentD · Juin 9, 2020, 6:36

Bonjour à tous,

J’ai le besoin de scrapper des données sur google, et plus particulièrement google shopping.

J’ai déjà tout ce qui faut pour récupérer les données, ça fonctionne pas, pas de soucis. Mon soucis est dans la scalabilité. Pour cela, j’ai besoin de pouvoir utiliser des IP résidentielles (ou des IP de suffisamment bonne qualités qui ne soient pas bloquées par google).

Des services comme luminati ou geosurf sont trop chers par rapport à mon projet. Je suis donc à la recherche de toutes bonnes idées / bons plans pour arriver à faire cela.

Merci d’avance pour vos retours

Camille · Juin 9, 2020, 8:45

Regarde par ici :

FlorentD · Juin 9, 2020, 9:56

Merci Camille pour le retour.

Je vais voir les différentes pistes proposées.

FlorentD · Juin 9, 2020, 10:14

J’ai été voir la discussion, je retiens ces deux services à tester : https://buy.fineproxy.org/eng/index.html et https://proxy6.net/en/ même si il ne semble pas que ce soit la solution pour google shopping.

J’ai également précisé mon titre, plus que google, c’est les résultats de google shopping qui m’intéressent : produits qui remontent, à quel prix, quel vendeur, …

Pour cela https://serpapi.com/ fait tout à fait le job, mais pour plus cher que ce que je cherche, et avec une couche dont je n’ai pas besoin (j’ai vraiment juste besoin d’IPs de qualité).

Des idées ? J’ai également des pistes pour avoir « mes » Ips résidentielles, mais il y a un manque de temps pour développer ça, et j’ai besoin d’une solution rapidement … Si quelqu’un à une solution autre qu’un proxy « traditionnel », je prends

Camille · Juin 9, 2020, 10:45

Si ça peut passer, mais ce n’est pas du proxy privé, donc peut-être qu’ils seront en partie grillé sur les produis Google.

A mon avis le mieux pour toi c’est de regarder du côté de :

Scrapingbee (cc @ksahin : ça passe sur Google Shopping ?)
ScraperAPI
Scrapestack

ClementAubry · Juin 9, 2020, 11:48

Je confirme, personnellement j’utilise scraperapi qui permet d’appeler la page et de récupérer le résultat en html, à toi de le traiter derrière. J’en suis très content !
$29 pour 250,000 requêtes par moi sur le plus petit forfait. Ça passe parfaitement les captcha, mais les requêtes prennent chacune 10-15 secondes (après tu peux paralleliser).
Parfois quelques résultats vides, à gérer avec un système d’erreurs, et quand c’est le cas refaire la requête fonctionne.

FlorentD · Juin 9, 2020, 12:38

Super, merci Clément et Camille pour vos retours.

Sur ce projet le temps de réponses n’est pas le plus gros soucis, surtout si on peut paralléliser.

Les proxy que j’utilise actuellement ont un taux d’échec trop important pour que je considère de « harvest ».

drx · Juin 16, 2020, 11:13

Oui c’est les taux d’échecs qui m’ont fait mettre tout ça en suspend pour le moment. Mais je vais regarder aussi ce que vous suggérez. Merci pour ces infos