Kürzlich geriet die KI-Firma Anthropic ins Rampenlicht der Öffentlichkeit, weil sie eine einzigartige Methode zur Digitalisierung von Büchern anwendete. Laut Berichten der ausländischen Medien Ars Technica kaufte Anthropic für die Ausbildung seines KI-Assistenten Claude Millionen Dollar wertvolle physische Bücher und verwandelte sie durch Zerlegen und Scannen in digitale Dateien. Nach diesem Prozess wurden die ursprünglichen Bücher direkt entsorgt.

Claude2, Anthropic, Künstliche Intelligenz, Chatbot Claude

Gerichtsakten enthüllten, dass Anthropic im Februar 2024 Tom Turvey einstellte, der an Projekten mit Google Books beteiligt war und „die Beschaffung von Büchern aus der ganzen Welt“ übernahm. Dieser Schritt war offensichtlich darauf abzielen, den Modus zu nutzen, der von Gerichten bei der Digitalisierung von Büchern als angemessen betrachtet wurde.

Der Richter William Alsup urteilte, dass die Scanmethode von Anthropic als angemessene Nutzung gilt, da diese Bücher legal erworben wurden und unmittelbar nach dem Scannen zerstört wurden. Die digitalen Dateien wurden nur intern verwendet und nicht nach außen weitergegeben. Er stellte fest, dass dieser Umwandlungsprozess als „raumsparendes“ Digitalisierungsverfahren angesehen werden könnte, das Merkmale der angemessenen Nutzung aufweist. Allerdings hatte die frühere Piraterie gewisse Auswirkungen auf die Legalität.

Die Ausbildung von KI erfordert große Mengen an hochwertigen Textdaten. Um große Sprachmodelle zu bauen, müssen Milliarden von Wörtern in neuronale Netzwerke eingegeben werden, um Beziehungen zwischen Wörtern und Konzepten herzustellen. Die Qualität der Daten beeinflusst direkt die Genauigkeit der Modellausgaben. Daher benötigen viele KI-Unternehmen dringend hochwertige Verlagsinhalte und sind oft nicht bereit, Zeit für Lizenzverhandlungen zu verwenden.

Das sogenannte „Erstverkaufsprinzip“ in den USA erlaubt es Käufern, nach dem Erwerb physischer Bücher selbst zu entscheiden, was mit ihnen geschieht, wodurch das Kauf von Büchern zu einer legalen „Umgehungslösung“ wird. Dennoch wählte Anthropic zunächst auch die Umgehung des Urheberrechtsproblems und nutzte manchmal sogar piratierte E-Bücher. Nach rechtlicher Überlegung begann das Unternehmen, nach sichereren Alternativen zu suchen, und entschied sich schließlich, gebrauchte Bücher zu kaufen, um hochwertige Trainings texte zu erhalten und den Lizenzierungsprozess zu vereinfachen.

Um den Digitalisierungsprozess zu beschleunigen, verwendete Anthropic eine „zerstörende Scanning“-Methode, kaufte große Mengen an Büchern, öffnete sie, schnitt sie zurecht und scannte sie in maschinenlesbare PDF-Dateien. Dieser Prozess kostete mehrere Millionen Dollar. Obwohl nicht zerstörende Scan-Technologien bereits reif sind, wie beispielsweise die von Internet Archive entwickelten Methoden, die die Originalbücher erhalten, löste die von Anthropic gewählte Methode dennoch breite Diskussionen aus.

Zentrale Punkte:

📚 Anthropic investierte Millionen Dollar, um physische Bücher zu kaufen und sie durch Zerlegen und Scannen in digitale Dateien zu verwandeln, um den KI-Assistenten Claude zu trainieren.

⚖️ Der Richter urteilte, dass die Scanmethode von Anthropic als angemessene Nutzung gilt, da die Bücher legal erworben und nach dem Scannen zerstört wurden.

🔄 Die Ausbildung von KI erfordert große Mengen an hochwertigen Textdaten. Anthropic beschleunigte den Digitalisierungsprozess von Büchern durch „zerstörende Scans“.