Retour d’experience pour ceux qui scrapent?

daolf · Mai 30, 2019, 10:01

Bonjour,

Je m’apprête a lancer une nouvelle API de scrapping qui s’occupe des proxy / chrome headless / JS rendering / captcha pour vous.

En clair vous envoyer un URL a l’API et elle vous renvoit du html, vous n’avez plus qu’a extraire la donnée ensuite.

Dans ce contexte que j’avais quelques questions avous poser concernant le scraping et votre usage ?

Quel est votre plus gros problème en scrappant:
a. Gestion des proxys (vous vous faites bloquer)
b. Gestion de Chome headless
c. JS rendering
Combien de requête par mois de scraping faite vous ?
Combien depensez vous par mois en outils de scrapping?
a. 0€ / mois
b. 1€ - 50€ / mois
c. 50€ - 150€ / mois
d. 150€+ par mois

Merci d’avances pour vos réponses. N’hésitez pas si vous avez des questions, si vous êtes intéréssé la bêta est là

Camille · Mai 30, 2019, 10:26

Propre.

Ce serait intéressant de faire une addon pour spreadsheet (et/ou intégration sur blockspring) + demandé à être ajouté en connector sur Seotoolsforexcel.

daolf · Mai 30, 2019, 10:50

Merci,

Yes c’est prévu !

Comme l’api est super facile a utiliser, pour pouvoir l’utiliser avec spreadsheet et blockspring dans un premier temps les gens auront juste a changer l’URL a parser:

URL → www.api.scrapingninja.co?url=URL&api_key=API_KEY

On pense aussi qu’on peut faire des trucs sympas avec Google Sheets + ScrapingNinja + Sheety + Cron.

Ca fait pas mal d’idées pour du blog post.

ScrapingExpert · Mai 31, 2019, 6:38

Hello,

C’est pas mal l’idée de cette API. Je me demandais:

Comment prévois-tu de gérer la partie Captchas? Est-ce qu’il s’agit juste d’être capable de ne jamais les déclencher via une gestion intelligente de rotating proxies, ou est-ce que tu comptes implémenter un système de résolution multi-captchas?
Est-ce que l’API donnera la possibilité au dev de paramétrer des options du headless browser tels que le user agent, le viewport size, et autres empreintes numériques? Voir même les cookies?

daolf · Mai 31, 2019, 9:21

Merci

Alors:

Captchas: Au début on va faire en sorte d’utiliser un autre proxy dès qu’on tombe sur un capchas. A terme on mettra en place des systèmes de résolutions.
Oui c’est prévu.

On a aussi prévu de permettre l’extraction de tout ce qui est méta donnée (schema.org) ainsi que de l’info formattée pour certain type de pages (produits, articles, …) un peu dans la veine de ce que fait diffbot, mais en beaucoup moins cher.

ScrapingExpert · Mai 31, 2019, 9:43

Il faudra être costaud en terme de proxies, d’un point de vue volumétrie de proxies et concernant leurs stabilités, ça peut vite piquer niveau budget.

Mais l’idée est top

Camille · Mai 31, 2019, 10:31

Si c’est luminati derrière, il n’y aura pas trop de problème

Camille · Mai 31, 2019, 10:33

Il y a pas mal d’API de decaptcher.

daolf · Mai 31, 2019, 10:42

Oui oui, mais bon, quand on sait ce qu’il y a derrière, on aimerait éviter

Berfhaen · Juin 3, 2019, 6:03

Qu’est qu’il y a derrière?
Et sinon vous gérerez les parties restreintes à des utilisateurs?

ScrapingExpert · Juin 3, 2019, 7:10

Ca dépend du point de vue, ça peut être vu comme de l’esclavagisme moderne: ce sont des humains, des Indiens par exemple, qui passent leurs journées à résoudre des captchas. Le service étant à 3 ou 4 dollars les 1 000, moins la marge , je te laisse imaginer ce que les mecs touchent derrière…

drx · Juin 5, 2019, 6:02

Problèmes :

Les proxies, surtout si on veut récupérer de la donnée sur GG
Quel serait le tarif de cette nouvelle API ? C’est toujours ça qui pique au final

daolf · Juin 5, 2019, 9:11

Pour les tarifs tu peux regarder ici: www.scrapingninja.co

On va aussi créer un plan a 10$.

Pour les proxy justement, c’est ce qu’on va promettre, aucun blocage, même sur Google

ScrapingExpert · Juin 6, 2019, 6:27

Je travaille avec une boîte qui vend de la donnée Google SERP, à raison de plusieurs centaines de millions de requêtes/mois.

Ils ont de très lourds moyens, et pourtant ils ne cachent pas les difficultés pour ne pas se faire bloquer par Google. Tu parles de proxies dédiés à Google avec une garantie de zéro blocage de 100%?

Si c’est le cas, tu pourras te permettre de faire monter tes prix allègrement

Par ailleurs, est-ce qu’il sera possible de faker sa géo-loc afin d’avoir des requêtes géolocalisées ?

boristchangang · Juin 6, 2019, 8:03

Un petit doute sur le 100%

daolf · Juin 6, 2019, 10:25

Doutes legitimes On espère te montre ça bientôt

daolf · Juin 6, 2019, 10:27

Yes, on pourra faire passer un pays en paramètre de la requête. Peut être pas dès le launch, mais rapidement après

bastien · Juin 6, 2019, 10:40

Bonjour,

Outil intéressant. Pour les requêtes géolocalisées, on pourra de toute façon donner des urls contenant directement le paramètre uule pour géolocaliser la requête où on veut ?

ScrapingExpert · Juin 6, 2019, 10:42

Cette technique est encore différente de faker l’IP/géoloc du navigateur, en faisant un mock du GPS de la device.

bastien · Juin 6, 2019, 11:37

Une des 2 techniques est à privilégier si on veut faire des requêtes géolocalisées ?