Scrapping et réutilisation des données

Bonjour,

J’ai une petite question d’usage, admettons que j’ai une application qui recense les films et permet au users de les noter et d’avoir des recommandations de films en fonction de leurs goûts.
Il me faut donc une bonne grosse base de données de films et j’ai trouvé des sites qui en ont et qui sont relativement facile à scrapper. Est-ce légal d’utiliser ainsi les données scrappées ? Certaines données sont communes et trouvable partout (nom, affiche casting) donc impossible de les relier à un site en particulier donc je pense qu’il n’y a pas de problème a pars des remarques peut-être"tiens les nouveaux films apparaissent juste après sur ce site que sur lui, etrange…".
D’autres données cependant, et c’est celle qui m’intéresse le plus sont rentrées par la personne gérant l’autre site (« thème », « style » etc) et pas trouvable ailleurs que sur un certain site. Je suppose que dans ce cas là, il est moins légale d’utiliser les données et, surtout, de les afficher ? Est-ce le cas sachant que ces données sont écrites noir sur blanc visible sur l’autre site.

Merci a vous pour votre avis

Hello @Robin754,

Pas évident les problématiques légales autour du scrapping…

Plusieurs éléments sont à considérer :

  • Faut il que tu sois connecté pour accéder aux infos que tu veux scrapper ?
    – Si oui, alors il y a fort a parier que tu acceptes en même temps les CGU du site, qui souvent excluent le scrapping → Pas légal
  • As tu regarder le robots.txt du site en question ? Souvent cela inclut des indications contre le scrapping.
  • Les informations sont elles accessibles publiquement ? je pense notamment à la jurisprudence de HIQ vs LinkedIn qui fait souvent référence sur la question du scrapping (en faveur du scrapping de données publiquement disponible) : HiQ Labs v. LinkedIn - Wikipedia

Merci pour la réponse.

Il n’y a pas besoin d’être connecté pour y avoir accès et les informations sont accessibles publiquement, c’est pour ça que je me dis que ça peut passer.

Je vais voir le robots.txt, merci je ne savais pas qu’il pouvait y avoir une info dessus
Merci

Je ne suis pas expert en droit mais il me semble que si tu proposes une utilisation des données différentes çà passe.
Par exemple si tu scrapes les annonces immo leboncoin pour ton site qui propose des annonces légales, C’est illégal.
Si tu scrapes les annonces immo pour les scorer et proposer un moteur de recherche he d’annonces pour investir c’est légal :sweat_smile:
Ce n’est que mon humble avis.

Vraie question : Pourquoi vouloir s’embêter en scrappant des sites à droites et à gauche avec des risques légaux quand il existe des bases légalement consultable et réutilisable disposant d’API fiables ?

Après si tu tiens à t’embêter, tu prends les données legits des API IMDB ou Rotten Tomatos et tu t’amuse à les traduire et à retraiter le contenu pour l’améliorer.

Merci @boristchangang pour les informations, je crains que le mieux ne soit de ne pas montrer qu’on utilise ces datas mais de les utiliser « en back ».
@Alban parce qu’en vrai, je ne cherche pas une base de données de films et je n’ai pas trouvé de base dans mon domaine d’utilisation. Enfin, il en existe une publique avec une bonne API mais elle interdit l’utilisation de cette dernière dans un cas commercial. Je leur ai demandé l’autorisation et ils m’ont dit non hélas, d’où l’idée de scrapper une autre base de données sans API.

Hello, la problématique légale vis à vis du scraping des données dépend avant tout du statut de l’éditeur du site tiers que tu comptes scraper.

Si l’on prend des cas comme Facebook ou LinkedIn, ceux-ci ne sont pas éditeurs de leur service, et ne revendiquent pas la propriété intellectuelle de leur base de données: ils sont hébergeurs de données déposées par leurs utilisateurs.

Si tu scrapes de tels sites, les risques que tu prends restent civils (tu ne respectes pas leurs CGV) et liés aux données personnelles (tu extraits de données de personnes physiques sans leur consentement).

A l’inverse, tu as des sites internet qui sont éditeurs de leur service et qui réalisent un vrai travail pour collecter, organiser et qualifier les informations qu’ils publient dans leur service. Dès lors qu’ils exposent une base de données organisée et régulièrement qualifiée, ils peuvent revendiquer le statut juridique de producteur de leur base de données et bénéficier de la production du droit sui generis des BDD.

dans ce dernier cas, le scraping de la BDD est illégal, même si les données sont publiées sur un site web et même si elles n’ont pas un caractère original.

1 « J'aime »

TMdb API est bien pour ca (avec possibilité d’usage commerciale aussi)

Hello Boris, si tu scrapes une base de données constituée par un tiers, pour concevoir un service commercial, sans avoir l’accord du producteur de la base de données, est en soi illégal.

Si ce tiers consacre des moyens à constituer et qualifier une base de données, tu n’es pas en droit de te « servir » dedans, notamment si les CGV te l’interdisent explicitement.

Le fait que le service que tu proposes puisse être directement concurrent au service de ta « source » est un facteur aggravant : parasitisme, concurrence déloyale.

Alors les gens sont gentils. Il y a wikipedia qui permet une telle utilisation des données à condition de citer la source… pour la solution juridique . Il suffit de regarder la licence si c’est gpl Ceccil dans les CGV .
J’ai trouvé la dernière série de Disney

Après l’utilisation des photos sont libres de droit du moment où on cite wikipedia comme source.
Pour la diffusion tu n’es pas responsable de la mise à disposition de l’image

Le contenu Wikipédia est effectivement réutilisable, dans une certaine mesure, du moment que tu respectes les termes de la licence Creative Commons — Attribution-ShareAlike 3.0 Unported — CC BY-SA 3.0 qui est juridiquement une « licence contaminante ».

Ceci veut dire, notamment, que tu t’engages à diffuser et à partager à l’identique, sous cette même licence CC-SA, tous les contenus que tu collecterais et ajouterais, en complément des contenus de Wikipedia.

** ShareAlike — If you remix, transform, or build upon the material, you must distribute your contributions under the same license as the original.*

cela va donc au delà de seulement « cite la source » :wink:

Je suis d’accord, mais on n’encourt pas de risque des ayant droits ou des créateurs pour reprendre l’image comme pour le scrapping

La jurisprudence c’est que tu peux le faire et réutiliser les données si celles ci sont considérées comme publiques, peu importe si tu fais du scraping, Les courses hippiques avaient éssayé d’attaquer les opérateurs de paris pour utiliser les données de leurs courses et elles ont été déboutées pour cela. Si tu utilises des données publiques personne ne viendra te demander comment tu les as eu :wink:

Même dans le cas où comme le dit @Wyatt, l’éditeur de la base de données que l’on scrappe à travailler à écrire ces données ?

Hello @Tomtombarcelona, je t’invite à aller relire la jurisprudence récente, car elle dit en la matière l’exact inverse de ce que tu écris.

Voir par exemple le jugement intervenu en février 2021 à la Cour d’Appel de Paris qui consacre la protection d’une « sous-base de données » d’un site internet au titre du droit sui generis des bases de données: ITRnews - Le premier quotidien des marchés numériques

Cette décision fait suite à un procès en appel entre LBC, la société éditrice du site web du Bon Coin, et l’un de ses concurrents sur la verticale « Immobilier », qui extrayait en masse le contenu des annonces immobilières du Bon Coin, puis les republiait ensuite quasi identiquement sur son propre site web.

Ces annonces avaient beau constitué des « données publiques », rien n’autorise ce concurrent à les extraire massivement pour bâtir un service concurrent.

Sauf que vous êtes hors cadre la licence Ceccil ou gpl donne l’autorisation des créateurs pour la libre diffusion . Surtout que le cas qui nous intéresse porte plutôt sur des listes de films et pas des annonces commerciales . Donc au sens des articles L.342-2 du code de la propriété intellectuelle (CPI) et L 341-1, le site re employant des données sous licences CECILL ont l’accord des créateurs originaux et donc la base de données tiers n’est pas productrice contenue mais réutilise des images de films .

Pardon sous licence Ceccill les sites re employant les images ont les autorisations des créateurs originaux et respectent L.342-2 du code de la propriété intellectuelle (CPI) et L341-1 du code de la propriété industrielle.