Scraper similarweb

GEDEA · Février 7, 2020, 10:38

Qualifier des listes de sites

GEDEA · Février 11, 2020, 11:24

Merci @NRateau pour le bon plan.
J’ai désormais un bot qui fait le taff pour vraiment pas cher.

Disposé à le partager en MP (attention c’est du sale: Exécutable Windows)

Dallolz · Février 11, 2020, 1:43

Je suis hyper interessé, ca utilise 2captcha.com et ca scrap similarweb? Ca à l’air fort interessant

GEDEA · Février 11, 2020, 1:54

Exactement. Lien en MP.

ClementAubry · Février 11, 2020, 4:11

Je me permets de proposer une alternative à 2captcha.com, qui est Scraperapi !

$29 par mois pour 250,000 requêtes HTTP. Et ils gèrent les captcha pour chaque requête, même si ça allonge un peu le temps d’execution.

Dallolz · Février 12, 2020, 10:53

Il n’y a pas de PM sur growthhacking.fr je crois bien

ClementAubry · Février 12, 2020, 10:53

@Dallolz Pour envoyer un message privé, il faut cliquer sur la photo de profil > message direct

Magicyoyo · Février 13, 2020, 9:46

Pour rappel, scraper un service comme Linkedin ou Facebook pourrait être considéré comme étant dans la zone grise au niveau juridique. Cela vient d’être démontré aux USA par une décision de justice.
En revanche, scraper un service qui vends de la donnée comme Similar Web, ce n’est pas du growth hacking, mais du piratage. La peine encourue est 2 ans d’emprisonnement et 30.000€ d’amende.
Et il n’est pas très difficile de remonter la piste de ce type de scrap.

camille · Février 13, 2020, 11:19

Tu es en train de dire qu’il ne faut pas scraper similarweb, alors qu’eux-mêmes génèrent une bonne partie de leurs données par le scraping

Je vais les attaquer pour récup 30K : https://www.similarweb.com/website/growthhacking.fr

Magicyoyo · Février 13, 2020, 11:49

Les données de Similar Web ne proviennent pas du scrap de ton site.
De ce que je sais, une partie venait de Jumpshot (fermé il y a quelques jours par Avast) ou source similaire.
Leur métier, c’est de constituer de la donnée et de la valoriser (croisements, calculs, stats…). Et c’est ce résultat que tu scrapes. Tu contournes les protections pour accéder à un service sans le payer.
Au contraire, quand HiQ scrape Linkedin, ce n’est pas ne pas payer les stats (qui n’existent pas), mais pour les créer à partir de données brutes.
Mais clairement, en France, la justice ne ferait même pas cette distinction.

camille · Février 13, 2020, 11:55

Je parle des données gratuite de similarweb. Quelqu’un qui fait 200 copier coller à la main des données similarweb gratuite, il encours deux ans de prison ?

Si, que ce soit eux ou par un intermédiaire c’est du scrap. Ne serait-ce que pour trouver le ndd, récupérer les « topics » du site, le title etc…Et pour le traffic, ils rachètent des extensions chrome bien dégueux et récupèrent les données des utilisateurs pour avoir un overview du traffic des sites, c’est encore bien plus moche que du scraping (pas sur à 100% que ce soit le cas de similarweb, mais certains des concurrents oui.)

Après oui ils font du « croisements, calculs, stats… » mais à partir de contenu scrapé.

Moi je veux bien défendre un site qui produit du contenu de qualité rédigé à la main et dire que c’est abusé de scraper, mais de la compassion pour similarweb, le roi du scraping…

D’ailleurs GG ne se dérange pas. Si je scrape le crawl par GG de similarweb au lieu de scraper similarweb directement c’est good ? :

https://webcache.googleusercontent.com/search?q=cache:pgzwsfOwmjIJ:https://www.similarweb.com/website/deux.io+&cd=13&hl=fr&ct=clnk&gl=fr

Luziusfly · Juin 7, 2020, 9:20

Je cherchais quelque chose comme ça et j’ai trouvé un api dans Rapidapi qui fonctionne très bien.
Voici le lien : https://rapidapi.com/apifactory/api/similarweb2

J’espère que ça aidera