Vérifier du duplicate

Bonjour,
Je suis entrain de créer une base de données de résidences que je souhaite mettre en ligne.

Dans cette base de données, j’ai un texte descriptif pour chaque établissement.
Le problème est que je ne sais pas d’où proviennent ces textes !
J’ai donc peur de mettre du duplicate en ligne !

Il y a environ 1000 établissements, donc autant de textes à vérifier.
(chaque texte fait environ 80-100 mots)

Y a t il une solution pour vérifier rapidement quels textes sont en duplicate et lesquels non ?

Merci de votre aide.

William

http://www.copyscape.com/ ont une API

Moi , j’utilise plagscan