Is Web Scraping now legal ?

4 J'aimes

Merci pour le partage Xavier,

Mais de toute façon c’est un faux débat depuis le début ce truc. Si un site ne souhaite pas être scrapé il l’indique dans son robot.txt, point barre :wink:

Je suppose que c’est malgré tout un sujet qui peut intéresser pas mal de monde, et que certains aiment débattre alors… je donne à ces personnes un peu de grain à moudre :innocent: !

1 J'aime

@camillebesse je ne pense pas que ce soit le sujet justement le robot.txt ou les conditions générale d’utilisation.

La question c’est est-ce que le fait d’écrire dans tes Terms & conditions / robot.txt que tu ne veux pas être scrapé rend illégal le fait de le faire quand même?

Il semblerait que non, en tout cas au états unis. Et les raisons sont assez évidente d’un point de vue du droit. Tu peux écrire ce que tu veux dans tes conditions générale d’utilisation, encore faut-il les accepter. Si un site te permet de consulter une page publique sans créer de compte / avoir a accepté les ToS…!

En France il y a eu des jurisprudence qui vont dans ce sens là, et d’autre qui disent que c’est de la violation de propriété intellectuelle.

C’est un sujet complexe, qui dépend de plein de choses, dont le pays ou c’est jugé!

2 J'aimes

Yes tu as raisons. C’est d’ailleurs une bonne raison pour ne pas scraper en logged.

Ce que je voulais sous-entendre avec le robots, c’est que si t’acceptes que Google te crawl, tu dois aussi accepter que d’autres le fassent.

2 J'aimes

Pas du tout.
En France, une création est protégée du simple fait de son existence. Aucun besoin de mentionner une restriction ou d’en protéger l’accès. Et c’est bien normal. Ce n’est pas parce que je laisse ma maison ouverte qu’on peut venir me prendre ce qu’il y a dedans.

Tout est dans la notion de création. Et en France, la frontière est assez large.
On pourrait imaginer que lorsqu’on scrape un réseau social, on ne vole rien à Linkedin ou à Facebook (seulement aux auteurs des messages) et ces derniers ont peu de moyens d’identifier le scrap et de s’y opposer (à moins d’une republication).

En revanche, scrapper des datas d’une entreprise dont c’est le métier de le produire (comme Similar Web évoqué dans une autre discussion), même si une partie de ces données sont publiques… ce serait traité en justice comme du piratage.

Oui je comprends cette notion. Mais il faut faire une différence entre le crawling pur et simple et l’utilisation de ces datas. C’est sur l’utilisation qu’il y a préjudice par sur le crawling sinon Google, Bing, Qwant etc…crouleraient sous les procès.

Si c’est sur la partie publique (non connecté) alors c’est du crawling pas du hacking. S’ils veulent protéger leurs données, il faut les mettre derrière la création d’un compte et spécifier dans les cgu/tos les risques encourus en cas de scraping. C’est bien pour ça que ceux qui ont crawlé Linkedin en logout n’ont rien eu et que certains qui avaient scrapé Linkedin avec l’utilisation de centaines de comptes en logged ont eu des problèmes.

Mais au lieu de grandes explications :

http://www.google.com/search?q=site:similarweb.com/website/ (Et ils stockent une version cache sur leur serveurs en plus, pas bien Google… :))

PS : Similarweb en terme de scraping bien crado ils sont pas mal.

Je ne suis pas expert en droit, mais il me semble que les droits soient différents si tu es un moteur de recherche ou non.

La subtilité m’échappe, mais j’imagine que ca vient du fait qu’ils ne vendent pas la données, mais y donne accès…

1 J'aime

Yes !

Pour revenir à Similarweb, c’est clair que si quelqu’un crawl similarweb pour en faire un copycat, je comprend qu’il y a préjudice et qu’ils peuvent attaquer. On en revient à la différence entre le crawl et l’utilisation des datas.

Pour moi, quelqu’un qui crawl des données publiques similarweb (non soumises aux cgu/tos) pour enrichir un fichier client n’est pas attaquable car :

  1. le crawl de données publiques est pour l’instant toléré aux US (jurisprudence)
  2. Possible de prouver le crawl, mais impossible de prouver que la personne en a fait une utilisation quelconque sur un fichier excel (sauf si réstitution sur un site, mais la c’est autre chose).

Bref c’est un débat sans fin, car il peut y avoir des jurisprudences dans les deux sens n’importe quand.

3 J'aimes