Is Web Scraping now legal ?

5 « J'aime »

Merci pour le partage Xavier,

Mais de toute façon c’est un faux débat depuis le début ce truc. Si un site ne souhaite pas être scrapé il l’indique dans son robot.txt, point barre :wink:

1 « J'aime »

Je suppose que c’est malgré tout un sujet qui peut intéresser pas mal de monde, et que certains aiment débattre alors… je donne à ces personnes un peu de grain à moudre :innocent: !

2 « J'aime »

@Camille je ne pense pas que ce soit le sujet justement le robot.txt ou les conditions générale d’utilisation.

La question c’est est-ce que le fait d’écrire dans tes Terms & conditions / robot.txt que tu ne veux pas être scrapé rend illégal le fait de le faire quand même?

Il semblerait que non, en tout cas au états unis. Et les raisons sont assez évidente d’un point de vue du droit. Tu peux écrire ce que tu veux dans tes conditions générale d’utilisation, encore faut-il les accepter. Si un site te permet de consulter une page publique sans créer de compte / avoir a accepté les ToS…!

En France il y a eu des jurisprudence qui vont dans ce sens là, et d’autre qui disent que c’est de la violation de propriété intellectuelle.

C’est un sujet complexe, qui dépend de plein de choses, dont le pays ou c’est jugé!

3 « J'aime »

Yes tu as raisons. C’est d’ailleurs une bonne raison pour ne pas scraper en logged.

Ce que je voulais sous-entendre avec le robots, c’est que si t’acceptes que Google te crawl, tu dois aussi accepter que d’autres le fassent.

2 « J'aime »

Pas du tout.
En France, une création est protégée du simple fait de son existence. Aucun besoin de mentionner une restriction ou d’en protéger l’accès. Et c’est bien normal. Ce n’est pas parce que je laisse ma maison ouverte qu’on peut venir me prendre ce qu’il y a dedans.

Tout est dans la notion de création. Et en France, la frontière est assez large.
On pourrait imaginer que lorsqu’on scrape un réseau social, on ne vole rien à Linkedin ou à Facebook (seulement aux auteurs des messages) et ces derniers ont peu de moyens d’identifier le scrap et de s’y opposer (à moins d’une republication).

En revanche, scrapper des datas d’une entreprise dont c’est le métier de le produire (comme Similar Web évoqué dans une autre discussion), même si une partie de ces données sont publiques… ce serait traité en justice comme du piratage.

3 « J'aime »

Oui je comprends cette notion. Mais il faut faire une différence entre le crawling pur et simple et l’utilisation de ces datas. C’est sur l’utilisation qu’il y a préjudice par sur le crawling sinon Google, Bing, Qwant etc…crouleraient sous les procès.

Si c’est sur la partie publique (non connecté) alors c’est du crawling pas du hacking. S’ils veulent protéger leurs données, il faut les mettre derrière la création d’un compte et spécifier dans les cgu/tos les risques encourus en cas de scraping. C’est bien pour ça que ceux qui ont crawlé Linkedin en logout n’ont rien eu et que certains qui avaient scrapé Linkedin avec l’utilisation de centaines de comptes en logged ont eu des problèmes.

Mais au lieu de grandes explications :

site:similarweb.com/website/ - Google Zoeken (Et ils stockent une version cache sur leur serveurs en plus, pas bien Google… :))

PS : Similarweb en terme de scraping bien crado ils sont pas mal.

1 « J'aime »

Je ne suis pas expert en droit, mais il me semble que les droits soient différents si tu es un moteur de recherche ou non.

La subtilité m’échappe, mais j’imagine que ca vient du fait qu’ils ne vendent pas la données, mais y donne accès…

1 « J'aime »

Yes !

Pour revenir à Similarweb, c’est clair que si quelqu’un crawl similarweb pour en faire un copycat, je comprend qu’il y a préjudice et qu’ils peuvent attaquer. On en revient à la différence entre le crawl et l’utilisation des datas.

Pour moi, quelqu’un qui crawl des données publiques similarweb (non soumises aux cgu/tos) pour enrichir un fichier client n’est pas attaquable car :

  1. le crawl de données publiques est pour l’instant toléré aux US (jurisprudence)
  2. Possible de prouver le crawl, mais impossible de prouver que la personne en a fait une utilisation quelconque sur un fichier excel (sauf si réstitution sur un site, mais la c’est autre chose).

Bref c’est un débat sans fin, car il peut y avoir des jurisprudences dans les deux sens n’importe quand.

3 « J'aime »

Hello les amis

:raising_hand_man:

(long time no see)

Il semblerait que le droit aille plus que jamais dans le sens d’un accès libre aux données publiques, avec linkedin qui a perdu, une nouvelle fois contre hiQ Labs le 18/04/2022

Par ailleurs, en France, l’article l342-3 du code de la propriété intellectuelle est très clair, on peut collecter les données publiques à 2 conditions

  • on a un accès légitime aux données
  • on collecte de façon non-exhaustive

cf. juste là https://www.legifrance.gouv.fr/codes/article_lc/LEGIARTI000044365654

Lorsqu’une base de données est mise à la disposition du public par le titulaire des droits, celui-ci ne peut interdire :
1° L’extraction ou la réutilisation d’une partie non substantielle, appréciée de façon qualitative ou quantitative, du contenu de la base, par la personne qui y a licitement accès ;

Enfin, pour une overview plus complète, notre article à pinces juste ici:

:crab: > :man_police_officer:

1 « J'aime »

hello Sacha, le droit aux US évolue sans doute dans le sens d’une plus grande liberté, surtout pour des cas concernant des sites web qui opèrent sous le statut d’hébergeur et n’ont de fait pas de droits d’auteur et de propriété intellectuelle sur leur base de données.

Le droit européen -et français en particulier- c’est autre chose et la jurisprudence américaine n’augure pas nécessairement d’une future jurisprudence française.

S’agissant du code de la propriété intellectuelle et du droit applicable aux bases de données en particulier, il autorise certes une extraction partielle de données, mais n’autorise pas pour autant la constitution de bases de données dérivées, encore moins la revente de cette base de données dérivées à des tiers, sans l’accord préalable du producteur de la BDD initiale, ni des personnes dont les données ont été extraites.

par ailleurs, tu as omis de citer la fin de l’article I342-3 qui apporte une précision importante:
« Les exceptions énumérées par le présent article ne peuvent porter atteinte à l’exploitation normale de la base de données ni causer un préjudice injustifié aux intérêts légitimes du producteur de la base. »

Bref, si tu scrapes les informations présentes sur un site web en vue de construire ton propre service concurrent dudit site, tu vas à l’encontre des intérêts légitimes du producteur de la base et tu ne peux plaider l’exception.

Hello Wyatt,

Merci pour ton retour précis et documenté, toujours un plaisir d’échanger sur ces sujets à la frontière mouvante, qui évolue au gré des évolutions technologiques et des jurisprudences successives.

tl;dr

:white_check_mark: oui, la récupération d’une partie non substantielle d’une base de données publique est entièrement légale

:no_entry_sign: non, le mode de récupération importe peu — avec un outil informatique :robot: ou à la main :raised_hand:

hello Sacha, le droit aux US évolue sans doute dans le sens d’une plus grande liberté, surtout pour des cas concernant des sites web qui opèrent sous le statut d’hébergeur et n’ont de fait pas de droits d’auteur et de propriété intellectuelle sur leur base de données.

Tout à fait d’accord avec toi, c’est bien ce qu’on appelle données publiques — et données sur lesquels les hébergeurs n’ont aucun droit de propriété, quoi que prétende les CGUs internes.

CGU à profusion n’est pas raison…

S’agissant du code de la propriété intellectuelle et du droit applicable aux bases de données en particulier, il autorise certes une extraction partielle de données, mais n’autorise pas pour autant la constitution de bases de données dérivées, encore moins la revente de cette base de données dérivées à des tiers, sans l’accord préalable du producteur de la BDD initiale, ni des personnes dont les données ont été extraites.

Je ne comprends pas du tout le raisonnement ici par contre.

Si la donnée est publique, elle est récupérable, soit à la main en payant des stagiaires ou des contractors au lance-pierre, soit avec un système automatisé.

Il existe des sociétés qui proposent de la récupération de donnée manuelle — c’est entièrement justifiable, puisque la donnée est publique et la récupération non substantielle. Il existe de la même façon des sociétés qui proposent une récupération automatisée par ordinateur.

La donnée peut-être librement exploitée — qu’elle que soit la méthode — la moins chère et la plus précise étant toujours à préférer sur les autres!

:crab:

Bref, si tu scrapes les informations présentes sur un site web en vue de construire ton propre service concurrent dudit site, tu vas à l’encontre des intérêts légitimes du producteur de la base et tu ne peux plaider l’exception.

Entièrement d’accord!
Dans ce cas-là cela va explicitement à l’encontre de l’article l342-3 — puisqu’il s’agit d’une récupération exhaustive.

Et la jurisprudence est très clair sur ces sujets là cf. l’affaire Entreparticuliers.com vs. leboncoin

NB: ici, on est clairement en dehors de l’article sus-cité…

Entreparticuliers.com, aurait mis en place un système d’extraction total, répété et systématique de la base de données immobilières de son site

En somme… happy scraping, avec modération!

La Cour d’Appel de Paris a récemment (pas trop) condamné https://www.entreparticuliers.com/ pour avoir collecté les annonces sur https://www.leboncoin.fr/

A la lumière de cette décision inhabituellement sévère en France, on a écrit un article sur le sujet:

(la décision a eu lieu le 18/02/2021, on est clairement pas au top de la réactivité je suis d’accord :full_moon_with_face:)

Curieux d’avoir vos retours!

:crab:

4 « J'aime »

Tu ne lâches pas le sujet c’est beau :popcorn:

Super intéressant, merci pour le partage

120K€ à payer en réparations, plus les frais de justice, et une astreinte de 500€ par jour et par infraction constatée si les troubles continuent ? Tu appelles cela une condamnation légère ?

Tirer de ce jugement l’interprétation que le scraping de données serait devenu légal en France, c’est « voir midi à sa porte ».

LA COUR,

Rejette l’exception d’irrecevabilité des demandes formées sur le fondement de la sous-base de données ‹ immobilier ›, et la demande de rejet des débats des pièces 9, 18, 67 et 72 ;

Confirme la décision entreprise en ce qu’elle a dit que le site leboncoin.fr constitue une base de données dont la société LBC France est le producteur, ordonné une mesure de publication, et condamné la société Entreparticuliers.com à payer à la société LBC France les sommes de 20 000 euros en réparation de son préjudice d’image, de 10 000 euros au titre de l’article 700 du code de procédure civile, ainsi que les dépens ;

Infirme pour le surplus, statuant à nouveau et y ajoutant ;

Dit que la société LBC France est producteur de la sous-base de données 'immobilier’ du site leboncoin.fr ;

Dit que la société Entreparticuliers.com a procédé à l’extraction et à la réutilisation de parties substantielles de la sous-base de données 'immobilier’ du site leboncoin.fr ;

Ordonne la cessation de ces agissements, et ce sous astreinte de 500 euros par violation constatée;

Condamne la société Entreparticuliers.com à verser à la société LBC France la somme de 50 000 euros en réparation de son préjudice financier ;

Rejette toutes autres demandes des parties contraires à la motivation ;

Condamne la société Entreparticuliers.com aux dépens d’appel, et vu l’article 700 du même code, la condamne à payer à la société LBC France la somme de 40 000 euros au titre des frais irrépétibles d’appel.

Ce qu’une lecture objective de ce jugement dit, c’est

1/ qu’aller scraper de manière substantielle et répétée la base de données d’un acteur qui peut en revendiquer les droits de propriété intellectuelle sui generis -du fait de ses investissements démontrables dans la constitution et l’entretien de la dite base- vaudra systématiquement condamnation. En cela, la cour ne fait que confirmer une jurisprudence constante depuis XX années sur ces sujets.

2/ et que les pénalités seront aggravées en cas de parasitisme économique et/ou de concurrence déloyale.

Pour ceux qui se posent la question de la légalité du web scraping et de la réutilisation des données personnelles disponibles en accès libre sur les sites web, je renvoie à la décision de la CNIL française du 30 avril 2020: La réutilisation des données publiquement accessibles en ligne à des fins de démarchage commercial | CNIL

Principes rappelés

  • Si les conditions générales d’utilisation (CGU) du site internet interdisent l’aspiration et la réutilisation des données à des fins commerciales, la pratique du web scraping n’est donc pas autorisée.
  • Sinon, le réutilisateur doit systématiquement informer les personnes concernées du traitement de leurs données et recueillir leur consentement libre, spécifique, éclairé et univoque des personnes avant d’exploiter leurs coordonnées à titre commercial (revente, prospection)
  • Lorsqu’une société a recours aux services d’un prestataire pour collecter des données, la société doit s’assurer que les mesures précédemment indiquées sont prises en compte par son prestataire: on ne peut donc pas sous-traiter des tâches de web scraping en se disant que c’est la responsabilité du prestataire qui sera alors engagée, pas la sienne.

Les logiciels bientôt…

istockphoto-618204254-612x612

sérieux tu penses ? :worried: