Retour d’experience pour ceux qui scrapent?

Felix · Juin 6, 2019, 11:49

Euhhh, au risque de paraitre stupide, c’est sûr que c’est des humains ? j’imaginai plutot des génies en dev qui font des scripts pour résoudre les captchas avec des techniques d’OCR ou autres…

ScrapingExpert · Juin 6, 2019, 11:57

@Felix: Oui certain que ce sont des humains, bien souvent en Inde ou similaire. Il n’existe pas de techniques OCR capables de reconnaître un passage piéton, ou un bus, ou un feu tricolore au sein d’images. C’est ce que Google prévoit de faire justement, en récupérant les données issues de la résolution de leur ReCaptchas.

Il suffit de jeter un œil aux documentations de services tels que DeathByCaptcha pour comprendre que ce sont de workers humains qui font tout à la main, d’où les délais de 10sec à 1 min pour la résolution des captchas…

@bastien: Avec le paramètre uule on spécifique explicitement que l’on veut obtenir les SERP depuis une géoloc spécifique mais sans masquer notre vraie géo localisation. Faudrait tester mais j’ai l’intime conviction que ça serait plus naturel de faire une recherche avec une fake geoloc du navigateur qu’en passant par ce paramètre.

ScrapingExpert · Juin 13, 2019, 1:55

Hello @daolf,

Je viens de tomber là dessus, c’est une solution concurrente directe à ce que tu proposes si je me trompe pas (pour la partie avec gestion rendering JS) ?

bastien · Juin 13, 2019, 2:25

J’avais testé Apify qui permet aussi de faire du scraping et propose des proxies directement intégrés. Par contre, pour scraper google, ça plante car bloqué rapidement, notamment sur des requêtes géolocalisées.

ScrapingExpert · Juin 13, 2019, 2:53

Là en l’occurrence il s’agit de Scraperapi, je ne sais pas ce que ça vaut, quelqu’un connait et à déjà testé?

daolf · Juin 13, 2019, 6:51

@ScrapingExpert Oui, notre première version répondra au même problème qu’eux.

On sera plus stable et un peu moins cher.

On prévoit aussi d’autre outils pour le scraping qui arriveront après le lancement.

Pour avoir testé le service c’est honnêtement pas mal, mais il faut éviter tout ce qui est site premium ( Google, Amazon etc )

camille · Janvier 6, 2020, 4:14

Je vois que vous n’être plus en beta et que vous lancez bientôt sur PH.

Il y a du nouveau côté features depuis ton dernier post ?

daolf · Janvier 6, 2020, 7:08

Salut Camille,

Effectivement on n’est plus en bêta et notre solution est déjà utilisé par des dizaines de clients.

On a récemment mis en place des API qui retournent de la donnée structurée toute propre pour Instagram et Google.

On sort bientôt ( janvier ) une API qui ressort des informations structurées de n’importe quel site e-commerce.

Voilà n’hésites pas si tu as d’autre questions

ScrapingExpert · Janvier 7, 2020, 9:46

Hello,

Est-il possible de nous faire bénéficier de crédits bonus à nous autres membres du forum ou que l’on mette en place un partenariat avec ton service pour tout membre que tu pourras acquérir par l’intermédiaire de ce forum (qui est une superbe porte d’entrée il faut le reconnaître )

daolf · Janvier 7, 2020, 3:56

Hello,

Bien sur c’est quelque chose qui peut se faire. Ca fait pas mal de temps, surtout Kevin Sahin mon co-fondateur, qu’on traine beaucoup sur le forum et c’est avec plaisir qu’on aimerait remercier la communauté.

Ce que l’on fait pour l’instant, avec nos partenaires, c’est qu’on leur donne un coupon « unique » (ici cela serait GrowthHackingFR) qui donne accès a des réduction sur les plans payants.

Si cela vous convient, tenez moi au courant, j’en parlerai avec mon associé et on pourra rapidement créer le coupon.

ScrapingExpert · Janvier 7, 2020, 4:38

Ah c’est ScrapingBee ! Je n’avais pas fais le lien ! Oui Kevin m’a parlé de la nouvelle API ! Félicitations pour la revente de PricingBot

daolf · Janvier 7, 2020, 5:16

Oui voilà c’est ça! Merci beaucoup.

Zernit · Janvier 7, 2020, 10:54

Salut !

Super idée, super projet, je me ferais un plaisir de tester votre API !
Petite question cependant, DataDome est-il contourné avec votre solution ?

ClementAubry · Janvier 8, 2020, 10:25

Hello !

J’utilise actuellement scraperapi, ma principale utilité est de scraper les résultats google.
Est-ce que vous avez fait un test de performances, combien de temps mets en moyenne une réponse à un appel sur une page google ?
Merci

daolf · Janvier 14, 2020, 1:37

Salut,

Alors pour Google en ce moment, pour les gros gros volume il faut passer par les premiums proxys si tu veux être sur que ça passe mais c’est assez cher.

Pour être honnête on est en train de sourcer d’autre solutions de proxys residentiels meilleurs marché et plus rapide. Je te tiens au courant dès qu’on a des choses convenable.

Tu peux toujours essayer de scrapper Google avec notre API sans rendering JS et donc avec un temps de réponse de l’ordre de 1 seconde, ça devrait bien se passer si tu n’as pas un énorme volume.

ClementAubry · Janvier 15, 2020, 9:27

Super, je vais donc essayer !
Mon volume de scraping mensuel n’est pas énorme, et surtout avec scraperAPI ça prend 10 secondes par requête …