Scraping et l'éthique


#1

Bonjour,

Pourriez-vous me faire un retour par rapport à votre ressenti, votre expérience, vos convictions vis à vis de l’éthique quand vous pratiquez du scraping ?
Quelles sont pour vous les limites ? les lignes à ne pas franchir ?
Quels sont les points juridiques sur lesquels s’appuyer , auxquels il faut faire attention ?
Quels sont les risques ? responsabilité ?

par avance merci.


#2

Bonjour,

Ce sujet est tellement vaste…impossible à tout résumer.

Si tu veux des réponses à un peu toutes ces questions, et si tu as le temps, je t’invite à aller lire ces commentaires sur Hacker News:

https://news.ycombinator.com/item?id=13884357

Avec un (court) extrait:

Having been the victim of a VERY badly behaved scraper, I’m willing to listen to this. When that “attack” was going on, we talked about that very thing, if the scraper would only identify himself. (we were able to identify the actual culprit, and circumstantial evidence suggested they were going after our complete price list for a client)

The cost of the bad scraper was pretty significant. They were hitting us as hard as they could, through TOR nodes and various cloud providers. But the bot was badly written, so it never completed its scan. It got into infinite loops, and triggered a whole lot of exceptions. It caused enough of a performance drain that it affected usability for all our customers.

We couldn’t block them by IP address because (a) it was just whack-a-mole, and (b) once they started coming in through the cloud, the requests could have been from legit customers. We eventually found some patterns in the bot’s behavior that allowed us to identify its requests and block it. But I’d have been willing to set up a feed for them to get the data without the collateral damage.


#3

J’ai cet onglet ouvert depuis mardi dernier, je vais y répondre comme ca je pourrai le fermer :wink:

J’ai pas mal étudié, recherché et essayé de trouver une solution respectueuse en terme de crawler/spider/bot/etc et je dois dire que c’est très simple … en apparence!

Pour ma part, il y a certaines règles essentielles à respecter, principalement :

  1. Respecter le robots.txt
    Certains critiquent l’utilité du fichier robots.txt. Pour ma part, je part du principe que si le responsable du site à mis des règles en place, c’est qu’il veux qu’on les respectent (non sans dec?)! Donc un bot doit les respecter. Ensuite, reste à définir comment vous identifiez votre bot. Vous pouvez l’identifier comme un navigateur web (Firefox, Chrome, etc), mais certains sites, certains services même (Distill network entre autre) vont vite capter votre petit jeu de crawler et vous bannir.
    Bon, vous pouvez toujours partir dans un jeu du chat et la souris à qui sera le plus malin, mais l’ultime fatalité sera quand vous recevrez une lettre de Cease and Desist (si vous avez du bol) parce que vous respectez pas les conditions d’utilisation du site.

  2. Espacer les requetes de 2 à 5 secondes pour un même domaine (sous entendu même serveur).
    Ca peux parraître beaucoup, car on a vite fait d’avoir un calcul biaisé sur l’estimation. Une requete toute les 5 secondes, ca ne fait QUE 12 requetes par minutes. Tu parles d’un crawler!
    Oui sauf que vous ne parcourez pas (normallement) qu’un site, mais plusieurs. Pour deux sites, on passe à 24, pour 3 à 36 et etc! Au début, le bot va être lent, mais plus il va avoir d’urls, plus il va être rapide.

Concernant le juridique, c’est assez vague en effet. Tout dépends de qui aura le meilleur avocat je dirai.
Mais légalement et en ma connaissance de cause, scrapper le web n’est pas interdit. Ensuite si vous respectez les règles des sites (robots.txt) et une latence entre chaque requêtes pour pas surcharger un site (delay), vous avancerez des arguments recevables en cas de procès qui pourront vous aider.

Voila pour ma part :slight_smile:


#4

Pour rebondir sur, et relancer ce sujet, un excellent article d’un avocat spécialisé, concernant la question de la légalité du web scraping:

Le web scraping, une technique d’extraction légale ?


#5

Et un article de droit français (oui, oui) :relaxed: :fr:

Article L342-3

Lorsqu’une base de données est mise à la disposition du public par le titulaire des droits, celui-ci ne peut interdire :

1° L’extraction ou la réutilisation d’une partie non substantielle, appréciée de façon qualitative ou quantitative, du contenu de la base, par la personne qui y a licitement accès ;


Communauté initiée par @camillebesse avec l'aide de @Cebri@JulienD@VivianSolide@Boristchangang
Follow @growthhackingfr