Eine kürzlich von Forschern der Stanford University, der Cornell University und der West Virginia University veröffentlichte Studie zeigt, dass das Meta-Modell Llama3.1AI in der Lage ist, große Teile von urheberrechtlich geschützten Büchern wortwörtlich wiederzugeben, was für die Technologiegigant ein potenzielles Rechtsrisiko mit beträchtlichen Schadenersatzforderungen birgt. Die Studie zeigt, dass das Llama3.170B-Modell im Test bis zu 42 % des Textes aus „Harry Potter und der Stein der Weisen“ reproduzieren konnte – deutlich mehr als das erste Generation Llama-Modell, das nur 4,4 % des Textes wiedergegeben hat.
Künstliche Intelligenz-Modelle wie OpenAI’s ChatGPT und Meta’s Llama werden normalerweise durch riesige Datenmengen trainiert, um Muster zu erkennen und zu generieren. Das entscheidende Ergebnis dieser Studie ist jedoch, dass Meta’s Llama-Modelle scheinbar nicht nur Sprachmuster lernen, sondern bestimmte Bücher nahezu „vollständig merken“ können, wie zum Beispiel „Harry Potter“ oder „1984“. Der Technikrechtsexperte von Stanford, Mark Lemley, argumentiert, dass wenn AI vollständige Auszüge ihrer Trainingsdaten generiert, sie nicht mehr als eine auf Lernen basierende „transformative Arbeit“ angesehen wird, sondern eher wie ein riesiger „ZIP-Ordner“, aus dem Benutzer beliebig kopieren können.
Neuer Schwerpunkt im Urheberrechtsstreit: Wortgetreue Wiederholung vs. Lernmodus
In Tests anderer AI-Modelle von Unternehmen wie OpenAI, DeepSeek und Microsoft fand Lemleys Forschungsteam heraus, dass Meta’s Llama das einzige Modell ist, das exakte Wiedergaben von Buchinhalten produzieren kann. Neben dem ersten Band der „Harry Potter“-Reihe zeigte das Modell auch eine bemerkenswerte Fähigkeit zur Wiederholung von F. Scott Fitzgeralds „Der große Gatsby“ sowie George Orwells „1984“.
Die Verwendung urheberrechtlich geschützter Materialien für den Trainingsprozess von AI-Modellen von Meta ist umstritten. Das Unternehmen steht derzeit vor mehreren Urheberrechtsklagen, einschließlich einer Klage von prominenten Autoren (wie dem Comedian Sarah Silverman), die Meta beschuldigen, sein Modell auf der Grundlage eines illegalen „Books3“-Datasets trainiert zu haben, das fast 200.000 urheberrechtlich geschützte Publikationen enthält. In den Gerichtsdokumenten heißt es, dass ein Meta-Ingenieur bei der Download-Operation der Torrentdatei gesagt habe: „Es fühlt sich komisch an, das auf meinem Firmenlaptop herunterzuladen.“
Lemley schätzt, dass Meta für lediglich 3 % der im „Books3“-Dataset als urheberrechtlich verletzend eingestufte Inhalte bis zu 1 Milliarde US-Dollar an gesetzlichen Entschädigungsansprüchen gegenüber sichern könnte – dies ohne Berücksichtigung der Gewinnbeteiligung. Bei höheren Anteilen von verletzenden Inhalten steigt die rechtliche Verantwortung für Meta weiter dramatisch.
Wechselnder Standpunkt der Rechtsexperten, Meta weigert sich zu antworten
Zu beachten ist, dass Lemley selbst zuvor als Vertreter von Meta in einem früheren fallbezogenen AI-Urheberrechtsstreit (Kadrey v Meta Platforms) für das Unternehmen eingesprungen war. Nachdem er diese Studie über die Gedächtnisfunktionen und die Wiedergabe urheberrechtlicher Inhalte von AI-Modellen leitete, erklärte er im Frühjahr dieses Jahres, dass er Meta nicht mehr vertreten wird, um Protest gegen einige Handlungen von Meta und dessen CEO Mark Zuckerberg zu äußern. Obwohl er zuvor die Überzeugung hatte, dass Meta im Streit gewinnen sollte, scheinen die neuen Studienergebnisse seine Meinung geändert zu haben.
Meta reagierte auf die neuesten Erkenntnisse von Lemley mit keinem Kommentar.