Récente étude menée par des chercheurs de l'université de Stanford, de Cornell et de l'université de Virginie-Occidentale révèle que le modèle d'IA Meta Llama3.1 peut reproduire mot pour mot une grande quantité de contenu protégé par le droit d'auteur provenant de livres. Cela expose cette grande entreprise technologique à un risque juridique potentiellement colossal. Selon l'étude, le modèle Llama3.170B a réussi à reproduire jusqu'à 42 % du texte du livre *Harry Potter et la pierre philosophale* lors des tests, ce qui est bien supérieur aux 4,4 % atteints par le premier modèle Llama.

Les modèles d'intelligence artificielle, tels que ChatGPT d'OpenAI ou encore Llama de Meta, sont généralement entraînés sur des masses énormes de données dans le but de reconnaître et générer de nouveaux motifs. Toutefois, l'une des découvertes clés de cette recherche est que le modèle Llama de Meta semble non seulement apprendre les modèles linguistiques, mais qu'il peut également "se souvenir intégralement" de certains livres, comme *Harry Potter* ou *1984*. Mark Lemley, expert en droit de la technologie de l'université de Stanford, a déclaré que si une IA est capable de générer des extraits complets de son ensemble de données d'entraînement, elle ne peut plus être considérée comme une œuvre "transformative" basée sur l'apprentissage, mais ressemble davantage à un "fichier ZIP géant" contenant des œuvres protégées par le droit d'auteur, permettant à tout utilisateur de copier librement.

Droits d'auteur

Le nouveau point de mire du copyright : reproduction mot pour mot vs apprentissage des modèles

Lors des tests des modèles d'IA d'OpenAI, DeepSeek et Microsoft, l'équipe de recherche dirigée par Lemley a découvert que Meta Llama était le seul modèle capable de reproduire avec précision le contenu des livres. En plus de la première œuvre de la série *Harry Potter*, le modèle montre une capacité remarquable à se souvenir des œuvres de F. Scott Fitzgerald, *The Great Gatsby*, et de *1984* de George Orwell.

L'utilisation de matériaux protégés par le droit d'auteur pour former les IA de Meta suscite une vive controverse. L'entreprise fait face à plusieurs procès en contrefaçon, notamment celui intenté par des écrivains célèbres (comme l'humoriste Sarah Silverman), qui accusent Meta d'avoir formé son modèle à partir d'un "Books3" contenant près de 200 000 publications protégées par le droit d'auteur. Selon les documents judiciaires, un ingénieur de Meta a exprimé son malaise en téléchargeant des fichiers torrent avec un ordinateur de l'entreprise.

Le procureur Lemley estime que si seulement 3 % du contenu du "Books3" est reconnu comme étant une contrefaçon, Meta pourrait être condamnée à une amende de près de 1 milliard de dollars, sans compter les profits partagés. Si le pourcentage d'infractions est plus élevé, les responsabilités juridiques de Meta s'aggraveront encore plus.

Le changement de position des experts en droit et la réponse de Meta

Il est important de noter que Lemley avait défendu Meta dans une précédente affaire de contrefaçon liée à l'IA génératrice (Kadrey v Meta Platforms). Cependant, après avoir mené cette étude sur la mémoire et la reproduction des contenus protégés par le droit d'auteur dans les modèles d'IA, il a annoncé au début de cette année qu'il cesserait de représenter Meta pour protester contre certaines actions de l'entreprise et de son PDG, Mark Zuckerberg. Bien qu'il soutienne auparavant que Meta devrait gagner ce procès, les résultats de cette nouvelle recherche semblent avoir modifié son opinion.

Meta n'a pas souhaité commenter les dernières découvertes de Lemley.