Reco système anti scraping


#1

Bonjour à tous,
Je recherche un système anti-scraping accessible à une startup pour protéger un annuaire pro.
En 2016, j’avais été en contact avec Shieldsquare qui proposait alors un plan à $59/mo (raisonnable pour moi) mais à la suite d’une inflation limitée le basic plan commence maintenant à $2000/mo !!!
Avez-vous des insights sur des solutions cost-effective et qui vous donnent quand même du fil à retordre en scraping :wink: ?
Merci pour votre aide
LouisThibaud


#2

Bonjour à toi,

As-tu tenter d’implémenter déjà une 1ère barrière de type Google ReCaptcha?


#3

Sinon les captchas questions avec beaucoup de questions differentes comme sur certains forums c est pas mal en plus de recaptcha.Tu exclues aussi toutes les ip non FR et toutes les ip non residentielles…avec le reste t es pas mal je pense


#4

Merci pour vos réponses.
@ScrapingExpert Google ReCaptcha me paraît une très bonne alternative mais sais-tu dire si les bots d’indexage de Google peuvent passer outre. Je m’explique, l’annuaire pro en question est conçu comme un attrape lead pour un autre service. Et à ce titre il doit être bien référencé par Google. Donc selon ta proposition, j’imagine forcer un captcha toutes les x consultations de fiches (en popup ou en invisible? ) mais j’ai besoin de les bots de Google contournent bien le captcha. En écrivant ceci, je suis conscient du coté schizo de mon souci : pas de bots mais ok pour le bot Google (ce qui autorise d’ailleurs un scraping via les pages de recherches Google :wink: mais limité dans mon cas)

@karni qu’est-ce qu’une ip résidentielle ? Sais-tu où trouver des listes ?

Merci encore pour votre aide !!


#5

Est-ce que tu penses que Google iraient se bloquer eux-mêmes avec leurs propres Google ReCaptchas, voyant leurs propres IP Google arriver? :smiley: haha bonne question, je ne pense pas !


#6

Si tu parles de mon message , je parlais de filtrer les ip au niveau du serveur avec les range d ip qui vont bien en laissant passer seulement les IP FR residentielles et les spiders des moteurs pour l indexation, recaptcha n a pas de rapport avec ca :wink:


#7

Non je répondais à @LouisThibaud, étant donné que ton message n’avait aucun rapport avec ReCaptcha.


#8

Hello, je bosse chez Datadome et nous protégeons 70% des sites e-commerce Français dont Le Bon Coin. Si tu veux tester notre solution gratuitement n’hésite pas à me contacter.

A ta dispo pour toute question :slight_smile:


#9

:sun_with_face: https://www.distilnetworks.com/ :sun_with_face:

Les meilleurs que je connaisse, curieux de connaître leur prix… Ils protègent https://www.crunchbase.com et https://www.similarweb.com.

Sinon, Craigslist très bien défendu, avec du invisible reCaptcha un peu partout :
https://www.craigslist.org/

Dans l’absolu, tu ne protègeras jamais ton site à 100%, mais tu peux augmenter le prix par ligne collecté, et rendre le scraping moins rentable qu’un abonnement à ton service.


#10

:clap::clap:


#11

Merci @ScrapingExpert, je crains que la question est-ce que les Googlebots peuvent passer les Google reCAPTCHAs ne fasse débat :wink:


ou

D’après vos réponses et d’autres recherches et échanges avec nos développeurs, je m’oriente sans doute vers une solution de type reCAPTCHA invisible ou non toutes les x fiches visitées avec identification des Google bots selon la méthode préconisée ici :
https://support.google.com/webmasters/answer/80553

@SashaLobstr, je partage complètement ta conclusion :wink:

Merci à tous et bonne journée


#12

Tu ne protegera jamais pleinement ton site…

Y’a d’autre solution plus perfide a imaginer. En le laissant croire qu’il reussi a te scrapper…

  • La bouilli, du contenu factice ou inexacte, avec des mail maitrisé pour reperer le scrappeur

  • Le cloaking tu reconnais le scrapper et tu lui affiches les données de ton concurrents que tu aura toi meme scrappé

  • le negative cloud : tu indique des liens de fichier qui sont les plus lourd sur le serveur de tes concurrents… Cela montera leur charge d’exploitation et perf.

  • redir 301 vers le site d’interpole lol

Bref facon judo, utilise la force de frappe de ton adversaire car totalement le bloquer tu y arrivera pas…


#13


#14

ouai j’ai oublié des éléments de liaison j’avoue lol merci camille ahahahaha


#15

Tu peux utiliser Cloudflare, ils ont une fonctionnalité anti-scraping (meme dans la version gratuite) ScrapeShield

Cela n’évitera pas le scraping, mais c’est un outil de plus pour te protéger et dissuader les apprentis scrapper


#16

Si tu n’as personne en tech, tu mets Cloudflare. Sinon, tu configures un iptable
sur ton serveur (c’est la méthode que j’aurais choisie il y a 10 ans, mais ça a peut être évolué depuis).


#17

Datadome, est très simple à contourner … j’avais scrapé les pages jaunes l’année dernière, et en quelques minutes j’avais poursuivi mon scraping.
La solution simple et rapide: mettre un captcha de manière aléatoire sur le contenu de tes pages et rajouter 1 à 2 secondes de chargement entre les pages (pour un humain c’est rien, pour un robot c’est long)


#18

Chut faut pas l’ecrire… Faut les laisser continuer comme ca lol…


#19

Y’a un acteur leader qui file l’etude avec tout les service anti bot listé … A suivre https://www.distilnetworks.com/


#20

Je ne sais pas mais vu que Google pénalise ses propres sites :joy: ça serait tout à fait possible


Team : CamilleBriceJulienVivianBorisXavierSteven.