Que risque t on à scrapper des données sur le site d'Amazon ?

Cactus · Mars 25, 2016, 6:32

Salut,

Je suis développeur.

On m’a demandé de faire un script pour pré-emplir un formulaire à partir d’une url vers une fiche produit Amazon.
En gros je vais aller récupérer le nom du produit, son prix, sa description…
pour pré-remplir le formulaire afin de simplifier une saisie produit dans le site de mon client.

Qu’est ce que je risque, légalement, du fait de réaliser ce script ?

Romfive · Mars 27, 2016, 9:55

Je ne suis pas pro dans le domaine, mais j’ai juste envie d’apporter mon avis

J’ai bossé comme un taré sur mon site ecommerce il y’a 2 ans… j’ai passé des heures voire des jours entiers à bosser mes fiches produits… puis j’ai pas forcément bien fait les choses mais bon, j’ai envoyé mon catalogue produit sur pas mal de marketplaces…
la finalité, c’est qu’ils m’ont tous bien pompé mes titres, descr., photos etc… même quand je vendais plus le produit en question, la marketplace, notamment amazon, s’est pas gratté pour tout me pomper… alors bon, à ta place, j’aurai pas de scrupule…

antoineb · Mars 28, 2016, 11:20

Si rien n’est stipulé dans les conditions d’utilisation du site tu ne risques rien. En revanche pour amazon ( extrait des conditions d’utilisation ) :

« Vous ne devez pas extraire et/ou réutiliser de façon systématique des parties du contenu de tout Service Amazon sans notre autorisation expresse et écrite. En particulier, vous ne devez pas utiliser de robot d’aspiration de données, ou tout autre outil similaire de collecte ou d’extraction de données pour extraire (en une ou plusieurs fois), pour réutiliser une partie substantielle d’un quelconque Service Amazon, sans notre accord express et écrit. Vous ne devez pas non plus créer et/ou publier vos propres bases de données qui comporteraient des parties substantielles (ex : nos prix et nos listes de produits) d’un Service Amazon sans notre accord express et écrit. »

Tu t’exposes donc à des poursuites de la part d’Amazon.

C’est pour ça qu’en général en scraping il faut se protéger au maximum en utilisant des proxy et VPN

Si tu commences dans le scraping fais toi plutôt la main sur des petits sites où tu ne risques rien avant de t’attaquer au mastodonte

antoineb · Mars 28, 2016, 11:36

Si tu recopies les descriptions produits sur le site de ton client tu te heurtes de toute façon au droit de la propriété intellectuelle et notamment au droit d’auteur qui « du seul fait de sa création, beneficie d’un droit de propriété incorporelle exclusif et opposable à tous. » (L 111-1 du code la PI)

Sans compter que le fait de recopier les descriptions produits d’Amazon est le meilleur moyen de ne pas être référencé par Google ( soit référence dans l’index secondaire ou alors très mal ranke dans l’index principal), c’est d’ailleurs un cas fréquent chez les e-commerçants qui envoient leur catalogue produit sur amazon et qui se retrouvant avec un contenu identique sur leur site et sur amazon voient leur site chuter dans le Ranking à cause du duplicate content et de la différence de notoriété entre leur site et amazon.

karni · Mars 28, 2016, 1:19

La protection des producteurs de BDD est « sui generis » (loi du 1er juillet 1998) .Les CU d’Amazon ne font que reprendre la loi qui s’applique logiquement à toutes les bases de données.Donc conditions d’utilisation ou pas c’est normalement interdit par la loi Française.

antoineb · Mars 28, 2016, 3:08

Le producteur ayant mis sa base de données à la disposition du public ne peut s’opposer à "l’extraction ou (à) la réutilisation d’une partie non substantielle, appréciée de façon qualitative ou quantitative, du contenu de la base, par la personne qui y a licitement accès " (art. L.342-3 1°).

« Le producteur peut également interdire l’extraction ou la réutilisation répétée et systématique de parties qualitativement ou quantitativement non substantielles du contenu de la base lorsque ces opérations excèdent manifestement les conditions d’utilisation normale de la base de données. »(L.342-2)

Conclusion : il s’agit bien d’un droit pour le producteur mais il n’est pas automatique,(comme l’est le droit d’auteur par exemple) c’est pour ça qu’il doit le mentionner dans les CU, sans celà l’accès à la partie de la base de données rendue publique est libre, et notamment son extraction même de façon intensive.

Donc comme dit plus haut : si ce n’est pas mentionné dans les CU , l’extraction est bien autorisée (ou du moins pas interdite)

karni · Mars 28, 2016, 3:16

Il suffit simplement que la condition « d’investissement substantiel soit remplie » (cas de tous les sites pros notamment).Nul besoin d’une mention contractuelle pour le démonter.

antoineb · Mars 28, 2016, 3:24

Les articles que je t’ai cité sont relatifs à la partie de la base de données rendue publique ( ce qui est le cas des fiches produits d’amazon) : dans ce cas, cette partie là n’est pas protégée sauf mention contraire du producteur.

La condition"d’investissement substantiel" s’applique de manière générale à toute base de données, mais une fois celle ci rendue publique, et sauf mention contraire , dans les CU notamment, l’extraction est autorisée.

antoineb · Mars 28, 2016, 3:29

"Pour être illicite, il est nécessaire que le transfert porte sur la totalité de la base ou, au moins, sur une partie « qualitativement ou quantitativement substantielle du contenu de la base »

Le caractère qualitativement substantiel de l’extraction doit être apprécié au regard de la nature des données extraites.
Le caractère quantitativement substantiel est apprécié au regard d’un pourcentage (données extraites/données contenues dans la base). « La notion de partie substantielle, évaluée de façon quantitative, du contenu d’une base de données au sens de l’article 7 de la directive 96/9 se réfère au volume de données extrait et/ou réutilisé de la base et doit être appréciée par rapport au volume du contenu total de la base"."

Conclusion : l’extraction de quelques fiches produits sur amazon ne tombe pas dans le cadre de " la totalité de la base ou, au moins, sur une partie « qualitativement ou quantitativement substantielle du contenu de la base ».
Ce qui est par contre le cas si on scrape le site en entier.

antoineb · Mars 28, 2016, 3:32

Je rajoute aussi la conclusion d’une jurisprudence Cadremploi : « Ce caractère n’existait pas dans l’affaire Cadremploi en effet, le volume d’informations extrait est évalué par l’expert à moins de 12 % du volume représenté par les offres. »

Pour « ce caractère » : il s’agit du caractère « quantitativement substantiel »
Et concernant le caractère « qualitativement substantiel », il faudrait aussi prouver que des descriptifs

Scraper 10% du site amazon représente au moins 100 000 fiches produits ce qui est supérieur au cataloque de 99% des ecommerçants.

Et donc on retombe sur l’article

Article L342-3

Lorsqu’une base de données est mise à la disposition du public par le titulaire des droits, celui-ci ne peut interdire :

1° L’extraction ou la réutilisation d’une partie non substantielle, appréciée de façon qualitative ou quantitative, du contenu de la base, par la personne qui y a licitement accès;

karni · Mars 28, 2016, 4:08

Justement, en l’espèce le problème n’est pas tant le caractère quantitativement substantiel mais plutot le caractère qualitativement substantiel du contenu scrapé.

L’extraction de fiche produit/ descriptif + prix ne présente elle pas un caractère qualitativement substantiel pour un site de e-commerce ?

antoineb · Mars 30, 2016, 6:56

Relit bien l’article : c’est le caractère non substantiel qui est apprécié de manière quantitave ou qualitative : il suffit donc qu’une des deux conditions soit validée ( quantitative ou qualitative) pour que le contenu soit qualifié de non substantiel. Sinon le simple fait de noter un prix sur un bout de papier constituerait une infraction

karni · Mars 30, 2016, 8:14

« l’extraction, par transfert permanent ou temporaire de la totalité ou d’une partie qualitativement ou quantitativement substantielle du contenu d’une base de données sur un autre support, par tout moyen et sous toute forme que ce soit » (CPI, art. L. 342-1, al. 1)

Donc pour résumer, les juges estiment si le contenu extrait est qualitativement ou quantitativement substantiel (ou non substantiel si tu préfères dans ce sens…).

Contrairement à ce que tu affirmes, la validation d’un seul caractère non substantiel ne suffit pas à ce que le contenu extrait soit qualifié de non substantiel.En fait c’est le raisonnement inverse : Si le contenu extrait est estimé qualitativement ou quantitativement substantiel (1 seule condition suffit) alors l’extraction est illicite (cf CPI + haut).

Tu ne réponds pas à la question du caractère qualitativement substantiel de l’association fiches produits/ descriptions + prix pour un site de E commerce comme Amazon.Tu auras noté que c’est un peu plus précis (comme le droit) qu’un prix sur un bout de papier.

Par ailleurs tu cites « Cadremploi » sans évoquer l’attendu suivant : "Ainsi, dans l’affaire Cadremploi, le tribunal justifie le caractère substantiel des éléments extraits par le fait qu’ils « portent notamment sur les informations dites de sélection et de référencement qui font la valeur de la base de données de la société Cadremploi »

Là encore, l’association sélection + référencement + fiches produits + prix ne fait elle pas la valeur de la BDD Amazon ?

D’autant qu’une partie des fiches produits est unique et rédigée par les internautes eux mêmes (Amazon.fr Aide).

Qui peux dire ce que serait l’analyse des juges sur ce cas de scrap Amazon ?

Tant mieux si tu arrives à anticiper les décisions du tribunal sur un problème juridique complexe, c’est un talent rare.

antoineb · Mars 30, 2016, 11:57

Décidément : tu oublies l’essentiel au début de l’article, tu ne cites pas "a le droit d’interdire " ce que fait amazon dans ces CU.

Donc pour amazon le cas ne se discute pas. Je te renvois a ma remarque initiale en haut de post.

karni · Mars 30, 2016, 12:45

J’ai bien noté la présence de cet élément en haut du thread mais vu que tu t’es toi même lancé dans une argumentation juridique que tu ne sembles pas maitriser, il me semble intéressant de remettre le problème en perspective.

Je me dis que ça peut servir à d’autres personnes qui auront peut être le réflexe d’aller consulter un vrai juriste plutôt que de lire ton interprétation erronée de l’article L342-3 .

D’ailleurs je note que tu bottes en touche sur l’analyse juridique de fond (cf dernier post).J’attends toujours ton argumentaire sur les points soulevés auxquels tu te gardes bien de répondre évidemment.

Tu évoques une discussion stérile mais c’est toi qui te sens obligé d’écrire 3 posts à la suite pour asseoir ton argumentation .

Edit : Ton post a été (re)modifié entre temps (comme souvent), n’hésite pas à faire un brouillon la prochaine fois ça t’évitera des « edit » successifs.

PS: Pour le lien, il ne s’agit que de la rubrique d’aide Amazon qui indique le process pour éditer / ajouter une fiche produit en relation avec l’argument susmentionné…

camille · Mars 30, 2016, 12:58

Vous pouvez aussi finir cette conversation en MP

antoineb · Mars 30, 2016, 4:50

Oui exact Camille

Pour clore le débat voici un extrait du site legavox.fr qui répond parfaitement à la question posée par Cactus :

"
L’article L. 343-1 du Code de la propriété intellectuelle prévoit que « Est puni de trois ans d’emprisonnement et de 300 000 euros d’amende le fait de porter atteinte aux droits du producteur d’une base de données tels que définis à l’article L. 342-1.

Cependant, il est nécessaire, pour que la protection s’applique, que l’extraction soit préalablement et clairement interdite[1]."

fenfir75 · Avril 1, 2016, 12:43

Pour les bots et empêcher le scraping il y a ce type de services qui est ultra efficace : https://datadome.co/ (je peux te mettre en relation si ça t’intéresse)
Et pour gérer ton catalogue produit, tes fiches produits, et les diffuser sur tous les canaux en toute simplicité rien de mieux qu’un PIM La plateforme PIM SaaS simple à utiliser | Quable