Retour d’experience pour ceux qui scrapent?

Si c’est luminati derrière, il n’y aura pas trop de problème :sweat_smile:

1 Like

Il y a pas mal d’API de decaptcher.

Oui oui, mais bon, quand on sait ce qu’il y a derrière, on aimerait éviter :slight_smile:

3 Likes

Qu’est qu’il y a derrière?
Et sinon vous gérerez les parties restreintes à des utilisateurs?

Ca dépend du point de vue, ça peut être vu comme de l’esclavagisme moderne: ce sont des humains, des Indiens par exemple, qui passent leurs journées à résoudre des captchas. Le service étant à 3 ou 4 dollars les 1 000, moins la marge , je te laisse imaginer ce que les mecs touchent derrière…

3 Likes

Problèmes :

  • Les proxies, surtout si on veut récupérer de la donnée sur GG
  • Quel serait le tarif de cette nouvelle API ? C’est toujours ça qui pique au final :slight_smile:

Pour les tarifs tu peux regarder ici: www.scrapingninja.co

On va aussi créer un plan a 10$.

Pour les proxy justement, c’est ce qu’on va promettre, aucun blocage, même sur Google :slight_smile:

1 Like

Je travaille avec une boîte qui vend de la donnée Google SERP, à raison de plusieurs centaines de millions de requêtes/mois.

Ils ont de très lourds moyens, et pourtant ils ne cachent pas les difficultés pour ne pas se faire bloquer par Google. Tu parles de proxies dédiés à Google avec une garantie de zéro blocage de 100%?

Si c’est le cas, tu pourras te permettre de faire monter tes prix allègrement :innocent:

Par ailleurs, est-ce qu’il sera possible de faker sa géo-loc afin d’avoir des requêtes géolocalisées ?

1 Like

Un petit doute sur le 100% :joy:

3 Likes

Doutes legitimes :slight_smile: On espère te montre ça bientôt

Yes, on pourra faire passer un pays en paramètre de la requête. Peut être pas dès le launch, mais rapidement après

Bonjour,

Outil intéressant. Pour les requêtes géolocalisées, on pourra de toute façon donner des urls contenant directement le paramètre uule pour géolocaliser la requête où on veut ?

Cette technique est encore différente de faker l’IP/géoloc du navigateur, en faisant un mock du GPS de la device.

Une des 2 techniques est à privilégier si on veut faire des requêtes géolocalisées ?

Euhhh, au risque de paraitre stupide, c’est sûr que c’est des humains ? :astonished::astonished: j’imaginai plutot des génies en dev qui font des scripts pour résoudre les captchas avec des techniques d’OCR ou autres…

@Felix: Oui certain que ce sont des humains, bien souvent en Inde ou similaire. Il n’existe pas de techniques OCR capables de reconnaître un passage piéton, ou un bus, ou un feu tricolore au sein d’images. C’est ce que Google prévoit de faire justement, en récupérant les données issues de la résolution de leur ReCaptchas.

Il suffit de jeter un œil aux documentations de services tels que DeathByCaptcha pour comprendre que ce sont de workers humains qui font tout à la main, d’où les délais de 10sec à 1 min pour la résolution des captchas…

@bastien: Avec le paramètre uule on spécifique explicitement que l’on veut obtenir les SERP depuis une géoloc spécifique mais sans masquer notre vraie géo localisation. Faudrait tester mais j’ai l’intime conviction que ça serait plus naturel de faire une recherche avec une fake geoloc du navigateur qu’en passant par ce paramètre.

Hello @daolf,

Je viens de tomber là dessus, c’est une solution concurrente directe à ce que tu proposes si je me trompe pas (pour la partie avec gestion rendering JS) ?

J’avais testé Apify qui permet aussi de faire du scraping et propose des proxies directement intégrés. Par contre, pour scraper google, ça plante car bloqué rapidement, notamment sur des requêtes géolocalisées.

Là en l’occurrence il s’agit de Scraperapi, je ne sais pas ce que ça vaut, quelqu’un connait et à déjà testé?

@ScrapingExpert Oui, notre première version répondra au même problème qu’eux.

On sera plus stable et un peu moins cher.

On prévoit aussi d’autre outils pour le scraping qui arriveront après le lancement.

Pour avoir testé le service c’est honnêtement pas mal, mais il faut éviter tout ce qui est site premium ( Google, Amazon etc )