Retour d’experience pour ceux qui scrapent?

Bonjour,

Je m’apprête a lancer une nouvelle API de scrapping qui s’occupe des proxy / chrome headless / JS rendering / captcha pour vous.

En clair vous envoyer un URL a l’API et elle vous renvoit du html, vous n’avez plus qu’a extraire la donnée ensuite.

Dans ce contexte que j’avais quelques questions avous poser concernant le scraping et votre usage ?

  1. Quel est votre plus gros problème en scrappant:
    a. Gestion des proxys (vous vous faites bloquer)
    b. Gestion de Chome headless
    c. JS rendering

  2. Combien de requête par mois de scraping faite vous ?

  3. Combien depensez vous par mois en outils de scrapping?
    a. 0€ / mois
    b. 1€ - 50€ / mois
    c. 50€ - 150€ / mois
    d. 150€+ par mois

Merci d’avances pour vos réponses. N’hésitez pas si vous avez des questions, si vous êtes intéréssé la bêta est

3 « J'aime »

Propre.

Ce serait intéressant de faire une addon pour spreadsheet (et/ou intégration sur blockspring) + demandé à être ajouté en connector sur Seotoolsforexcel.

3 « J'aime »

Merci,

Yes c’est prévu !

Comme l’api est super facile a utiliser, pour pouvoir l’utiliser avec spreadsheet et blockspring dans un premier temps les gens auront juste a changer l’URL a parser:

URL → www.api.scrapingninja.co?url=URL&api_key=API_KEY

On pense aussi qu’on peut faire des trucs sympas avec Google Sheets + ScrapingNinja + Sheety + Cron.

Ca fait pas mal d’idées pour du blog post.

Hello,

C’est pas mal l’idée de cette API. Je me demandais:

  • Comment prévois-tu de gérer la partie Captchas? Est-ce qu’il s’agit juste d’être capable de ne jamais les déclencher via une gestion intelligente de rotating proxies, ou est-ce que tu comptes implémenter un système de résolution multi-captchas?

  • Est-ce que l’API donnera la possibilité au dev de paramétrer des options du headless browser tels que le user agent, le viewport size, et autres empreintes numériques? Voir même les cookies?

Merci :slight_smile:

Alors:

  • Captchas: Au début on va faire en sorte d’utiliser un autre proxy dès qu’on tombe sur un capchas. A terme on mettra en place des systèmes de résolutions.

  • Oui c’est prévu.

On a aussi prévu de permettre l’extraction de tout ce qui est méta donnée (schema.org) ainsi que de l’info formattée pour certain type de pages (produits, articles, …) un peu dans la veine de ce que fait diffbot, mais en beaucoup moins cher.

Il faudra être costaud en terme de proxies, d’un point de vue volumétrie de proxies et concernant leurs stabilités, ça peut vite piquer niveau budget.

Mais l’idée est top :slight_smile:

Si c’est luminati derrière, il n’y aura pas trop de problème :sweat_smile:

1 « J'aime »

Il y a pas mal d’API de decaptcher.

Oui oui, mais bon, quand on sait ce qu’il y a derrière, on aimerait éviter :slight_smile:

3 « J'aime »

Qu’est qu’il y a derrière?
Et sinon vous gérerez les parties restreintes à des utilisateurs?

Ca dépend du point de vue, ça peut être vu comme de l’esclavagisme moderne: ce sont des humains, des Indiens par exemple, qui passent leurs journées à résoudre des captchas. Le service étant à 3 ou 4 dollars les 1 000, moins la marge , je te laisse imaginer ce que les mecs touchent derrière…

3 « J'aime »

Problèmes :

  • Les proxies, surtout si on veut récupérer de la donnée sur GG
  • Quel serait le tarif de cette nouvelle API ? C’est toujours ça qui pique au final :slight_smile:

Pour les tarifs tu peux regarder ici: www.scrapingninja.co

On va aussi créer un plan a 10$.

Pour les proxy justement, c’est ce qu’on va promettre, aucun blocage, même sur Google :slight_smile:

1 « J'aime »

Je travaille avec une boîte qui vend de la donnée Google SERP, à raison de plusieurs centaines de millions de requêtes/mois.

Ils ont de très lourds moyens, et pourtant ils ne cachent pas les difficultés pour ne pas se faire bloquer par Google. Tu parles de proxies dédiés à Google avec une garantie de zéro blocage de 100%?

Si c’est le cas, tu pourras te permettre de faire monter tes prix allègrement :innocent:

Par ailleurs, est-ce qu’il sera possible de faker sa géo-loc afin d’avoir des requêtes géolocalisées ?

1 « J'aime »

Un petit doute sur le 100% :joy:

3 « J'aime »

Doutes legitimes :slight_smile: On espère te montre ça bientôt

Yes, on pourra faire passer un pays en paramètre de la requête. Peut être pas dès le launch, mais rapidement après

Bonjour,

Outil intéressant. Pour les requêtes géolocalisées, on pourra de toute façon donner des urls contenant directement le paramètre uule pour géolocaliser la requête où on veut ?

Cette technique est encore différente de faker l’IP/géoloc du navigateur, en faisant un mock du GPS de la device.

Une des 2 techniques est à privilégier si on veut faire des requêtes géolocalisées ?