Reco système anti scraping

LouisThibaud · Février 25, 2019, 1:50

Bonjour à tous,
Je recherche un système anti-scraping accessible à une startup pour protéger un annuaire pro.
En 2016, j’avais été en contact avec Shieldsquare qui proposait alors un plan à $59/mo (raisonnable pour moi) mais à la suite d’une inflation limitée le basic plan commence maintenant à $2000/mo !!!
Avez-vous des insights sur des solutions cost-effective et qui vous donnent quand même du fil à retordre en scraping ?
Merci pour votre aide
LouisThibaud

ScrapingExpert · Février 25, 2019, 1:51

Bonjour à toi,

As-tu tenter d’implémenter déjà une 1ère barrière de type Google ReCaptcha?

karni · Février 25, 2019, 3:07

Sinon les captchas questions avec beaucoup de questions differentes comme sur certains forums c est pas mal en plus de recaptcha.Tu exclues aussi toutes les ip non FR et toutes les ip non residentielles…avec le reste t es pas mal je pense

LouisThibaud · Février 26, 2019, 6:14

Merci pour vos réponses.
@ScrapingExpert Google ReCaptcha me paraît une très bonne alternative mais sais-tu dire si les bots d’indexage de Google peuvent passer outre. Je m’explique, l’annuaire pro en question est conçu comme un attrape lead pour un autre service. Et à ce titre il doit être bien référencé par Google. Donc selon ta proposition, j’imagine forcer un captcha toutes les x consultations de fiches (en popup ou en invisible? ) mais j’ai besoin de les bots de Google contournent bien le captcha. En écrivant ceci, je suis conscient du coté schizo de mon souci : pas de bots mais ok pour le bot Google (ce qui autorise d’ailleurs un scraping via les pages de recherches Google mais limité dans mon cas)

@karni qu’est-ce qu’une ip résidentielle ? Sais-tu où trouver des listes ?

Merci encore pour votre aide !!

ScrapingExpert · Février 26, 2019, 6:15

Est-ce que tu penses que Google iraient se bloquer eux-mêmes avec leurs propres Google ReCaptchas, voyant leurs propres IP Google arriver? haha bonne question, je ne pense pas !

karni · Février 26, 2019, 6:56

Si tu parles de mon message , je parlais de filtrer les ip au niveau du serveur avec les range d ip qui vont bien en laissant passer seulement les IP FR residentielles et les spiders des moteurs pour l indexation, recaptcha n a pas de rapport avec ca

ScrapingExpert · Février 26, 2019, 7:29

Non je répondais à @LouisThibaud, étant donné que ton message n’avait aucun rapport avec ReCaptcha.

BenAli · Février 26, 2019, 8:33

Hello, je bosse chez Datadome et nous protégeons 70% des sites e-commerce Français dont Le Bon Coin. Si tu veux tester notre solution gratuitement n’hésite pas à me contacter.

A ta dispo pour toute question

SashaLobstr · Février 27, 2019, 10:57

https://www.distilnetworks.com/

Les meilleurs que je connaisse, curieux de connaître leur prix… Ils protègent https://www.crunchbase.com et https://www.similarweb.com.

Sinon, Craigslist très bien défendu, avec du invisible reCaptcha un peu partout :
https://www.craigslist.org/

Dans l’absolu, tu ne protègeras jamais ton site à 100%, mais tu peux augmenter le prix par ligne collecté, et rendre le scraping moins rentable qu’un abonnement à ton service.

Camille · Février 27, 2019, 11:00

LouisThibaud · Février 27, 2019, 11:50

Merci @ScrapingExpert, je crains que la question est-ce que les Googlebots peuvent passer les Google reCAPTCHAs ne fasse débat

ou

D’après vos réponses et d’autres recherches et échanges avec nos développeurs, je m’oriente sans doute vers une solution de type reCAPTCHA invisible ou non toutes les x fiches visitées avec identification des Google bots selon la méthode préconisée ici :
https://support.google.com/webmasters/answer/80553

@SashaLobstr, je partage complètement ta conclusion

Merci à tous et bonne journée

Nicolas_Laustriat · Février 28, 2019, 9:00

Tu ne protegera jamais pleinement ton site…

Y’a d’autre solution plus perfide a imaginer. En le laissant croire qu’il reussi a te scrapper…

La bouilli, du contenu factice ou inexacte, avec des mail maitrisé pour reperer le scrappeur
Le cloaking tu reconnais le scrapper et tu lui affiches les données de ton concurrents que tu aura toi meme scrappé
le negative cloud : tu indique des liens de fichier qui sont les plus lourd sur le serveur de tes concurrents… Cela montera leur charge d’exploitation et perf.
redir 301 vers le site d’interpole lol

Bref facon judo, utilise la force de frappe de ton adversaire car totalement le bloquer tu y arrivera pas…

Camille · Février 28, 2019, 9:21

Nicolas_Laustriat · Mars 1, 2019, 12:48

ouai j’ai oublié des éléments de liaison j’avoue lol merci camille ahahahaha

Felix · Mars 3, 2019, 2:45

Tu peux utiliser Cloudflare, ils ont une fonctionnalité anti-scraping (meme dans la version gratuite) ScrapeShield

Cela n’évitera pas le scraping, mais c’est un outil de plus pour te protéger et dissuader les apprentis scrapper

Jice_Lavocat · Mars 3, 2019, 3:27

Si tu n’as personne en tech, tu mets Cloudflare. Sinon, tu configures un iptable
sur ton serveur (c’est la méthode que j’aurais choisie il y a 10 ans, mais ça a peut être évolué depuis).

pi2r3 · Mars 4, 2019, 9:18

Datadome, est très simple à contourner … j’avais scrapé les pages jaunes l’année dernière, et en quelques minutes j’avais poursuivi mon scraping.
La solution simple et rapide: mettre un captcha de manière aléatoire sur le contenu de tes pages et rajouter 1 à 2 secondes de chargement entre les pages (pour un humain c’est rien, pour un robot c’est long)

Nicolas_Laustriat · Mars 7, 2019, 7:57

Chut faut pas l’ecrire… Faut les laisser continuer comme ca lol…

Nicolas_Laustriat · Mars 13, 2019, 5:14

Y’a un acteur leader qui file l’etude avec tout les service anti bot listé … A suivre https://www.distilnetworks.com/

antoineb · Mars 14, 2019, 4:46

Je ne sais pas mais vu que Google pénalise ses propres sites ça serait tout à fait possible