Bonjour à tous,
Je recherche un système anti-scraping accessible à une startup pour protéger un annuaire pro.
En 2016, j’avais été en contact avec Shieldsquare qui proposait alors un plan à $59/mo (raisonnable pour moi) mais à la suite d’une inflation limitée le basic plan commence maintenant à $2000/mo !!!
Avez-vous des insights sur des solutions cost-effective et qui vous donnent quand même du fil à retordre en scraping ?
Merci pour votre aide
LouisThibaud
Bonjour à toi,
As-tu tenter d’implémenter déjà une 1ère barrière de type Google ReCaptcha?
Sinon les captchas questions avec beaucoup de questions differentes comme sur certains forums c est pas mal en plus de recaptcha.Tu exclues aussi toutes les ip non FR et toutes les ip non residentielles…avec le reste t es pas mal je pense
Merci pour vos réponses.
@ScrapingExpert Google ReCaptcha me paraît une très bonne alternative mais sais-tu dire si les bots d’indexage de Google peuvent passer outre. Je m’explique, l’annuaire pro en question est conçu comme un attrape lead pour un autre service. Et à ce titre il doit être bien référencé par Google. Donc selon ta proposition, j’imagine forcer un captcha toutes les x consultations de fiches (en popup ou en invisible? ) mais j’ai besoin de les bots de Google contournent bien le captcha. En écrivant ceci, je suis conscient du coté schizo de mon souci : pas de bots mais ok pour le bot Google (ce qui autorise d’ailleurs un scraping via les pages de recherches Google mais limité dans mon cas)
@karni qu’est-ce qu’une ip résidentielle ? Sais-tu où trouver des listes ?
Merci encore pour votre aide !!
Est-ce que tu penses que Google iraient se bloquer eux-mêmes avec leurs propres Google ReCaptchas, voyant leurs propres IP Google arriver? haha bonne question, je ne pense pas !
Si tu parles de mon message , je parlais de filtrer les ip au niveau du serveur avec les range d ip qui vont bien en laissant passer seulement les IP FR residentielles et les spiders des moteurs pour l indexation, recaptcha n a pas de rapport avec ca
Hello, je bosse chez Datadome et nous protégeons 70% des sites e-commerce Français dont Le Bon Coin. Si tu veux tester notre solution gratuitement n’hésite pas à me contacter.
A ta dispo pour toute question
https://www.distilnetworks.com/
Les meilleurs que je connaisse, curieux de connaître leur prix… Ils protègent https://www.crunchbase.com et https://www.similarweb.com.
Sinon, Craigslist très bien défendu, avec du invisible reCaptcha un peu partout :
https://www.craigslist.org/
Dans l’absolu, tu ne protègeras jamais ton site à 100%, mais tu peux augmenter le prix par ligne collecté, et rendre le scraping moins rentable qu’un abonnement à ton service.
Merci @ScrapingExpert, je crains que la question est-ce que les Googlebots peuvent passer les Google reCAPTCHAs ne fasse débat
ou
D’après vos réponses et d’autres recherches et échanges avec nos développeurs, je m’oriente sans doute vers une solution de type reCAPTCHA invisible ou non toutes les x fiches visitées avec identification des Google bots selon la méthode préconisée ici :
https://support.google.com/webmasters/answer/80553
@SashaLobstr, je partage complètement ta conclusion
Merci à tous et bonne journée
Tu ne protegera jamais pleinement ton site…
Y’a d’autre solution plus perfide a imaginer. En le laissant croire qu’il reussi a te scrapper…
-
La bouilli, du contenu factice ou inexacte, avec des mail maitrisé pour reperer le scrappeur
-
Le cloaking tu reconnais le scrapper et tu lui affiches les données de ton concurrents que tu aura toi meme scrappé
-
le negative cloud : tu indique des liens de fichier qui sont les plus lourd sur le serveur de tes concurrents… Cela montera leur charge d’exploitation et perf.
-
redir 301 vers le site d’interpole lol
Bref facon judo, utilise la force de frappe de ton adversaire car totalement le bloquer tu y arrivera pas…
ouai j’ai oublié des éléments de liaison j’avoue lol merci camille ahahahaha
Tu peux utiliser Cloudflare, ils ont une fonctionnalité anti-scraping (meme dans la version gratuite) ScrapeShield
Cela n’évitera pas le scraping, mais c’est un outil de plus pour te protéger et dissuader les apprentis scrapper
Si tu n’as personne en tech, tu mets Cloudflare. Sinon, tu configures un iptable
sur ton serveur (c’est la méthode que j’aurais choisie il y a 10 ans, mais ça a peut être évolué depuis).
Datadome, est très simple à contourner … j’avais scrapé les pages jaunes l’année dernière, et en quelques minutes j’avais poursuivi mon scraping.
La solution simple et rapide: mettre un captcha de manière aléatoire sur le contenu de tes pages et rajouter 1 à 2 secondes de chargement entre les pages (pour un humain c’est rien, pour un robot c’est long)
Chut faut pas l’ecrire… Faut les laisser continuer comme ca lol…
Y’a un acteur leader qui file l’etude avec tout les service anti bot listé … A suivre https://www.distilnetworks.com/
Je ne sais pas mais vu que Google pénalise ses propres sites ça serait tout à fait possible