Reddit hat Klage gegen die KI-Firma Anthropic beim Superior Court von San Francisco eingereicht, da diese systematisch Reddit-Beiträge ohne Genehmigung zur Ausbildung des Sprachmodells Claude verwendet habe, was die Nutzervereinbarungen und kommerziellen Nutzungsrichtlinien verletzt.
Dieser Rechtsstreit hebt die rechtlichen Kontroversen hinsichtlich der Zugewinnung von Trainingsdaten für KI hervor und spiegelt die zunehmend angespannten Beziehungen zwischen Inhaltenutzungsplattformen und KI-Unternehmen wider. Reddit fordert vom Gericht, dass Anthropic alle mit Reddit-Inhalten versehenen KI-Modelle und Datensätze löscht und verbietet die kommerzielle Nutzung von AI-Modellen, die auf Reddit-Daten trainiert wurden.
Technische Schutzmaßnahmen umgangen
Nach den Akten der Klage hat Anthropic die Nutzervereinbarungen von Reddit ignoriert und umging Technologie-Schutzmaßnahmen wie robots.txt-Dateien und IP-basierte Geschwindigkeitsbegrenzungen. Noch wichtiger ist, dass Anthropic nie auf die mit Reddit kompatible API zugegriffen hat – ein Werkzeug, das bei der Löschung von Beiträgen Benutzer über die erforderliche Benachrichtigung informiert und sicherstellt, dass entsprechende Inhalte aus dem Trainings-System entfernt werden.
In der Klage wird erwähnt, dass Anthropic öffentlich zugegeben hat, Reddit-Daten in ihrer Forschung zu verwenden, und bis zu 40 Subforen (einschließlich r/science, r/IAmA und r/relationship_advice) als „hohe Qualität“-Datenquellen für die Ausbildung von Claude aufgelistet hat. Reddit argumentiert, dass diese Datenerfassung völlig uneingeladen erfolgte und die Plattformschutzmaßnahmen verletzte.
Widersprüche zwischen öffentlicher Erklärung und tatsächlichen Handlungen
Eines der umstrittensten Aspekte ist der Widerspruch zwischen der öffentlichen Stellungnahme von Anthropic und deren tatsächlichen Handlungen. Im Juli 2024 erklärte ein Sprecher von Anthropic, dass Reddit seit Mai von der ClaudeBot-Blacklist sei. Dennoch zeigen interne Logs von Reddit, dass Anthropics Bots in den Monaten nach dieser Ankündigung weiterhin mehr als 100.000 Mal auf Reddit-Server zugreifen.
Diese Entdeckung stellt Anthropics öffentliche Zusagen in Frage und wird zu einem Schlüsselbeweis in der Klage von Reddit.
Doppelte Bedrohung für Privatsphäre und Geschäftsinteressen
In der Klage betont Reddit, dass Anthropics Verhalten sowohl die geschäftlichen Interessen von Reddit als auch die Privatsphäre der Nutzer gefährdet. Ohne Lizenz oder eine kompatible API-Verbindung ist es unmöglich zu bestätigen, ob gelöschte oder sensible Beiträge immer noch in Claudes Modell enthalten sind.
„Wenn Unternehmen wie Anthropic Reddit-Inhalte ohne Erlaubnis verwenden, können Nutzer keine der Schutzbestimmungen im Rahmen der öffentlichen Content-Richtlinien und Datenschutzrichtlinien genießen“, heißt es in den Klageschriften. „Dies liegt teilweise daran, dass Nutzer nicht wissen können, welche Dritte ihre Daten herunterladen und verwenden.“
Dieser Punkt berührt das Kernproblem der Verwendung von Nutzerdaten für KI-Trainings: Haben Nutzer das Recht, ihren veröffentlichten Inhalt weiterzuführen zu steuern, insbesondere in kommerziellen KI-Systemen?
Vergleich: Der合规-Pfad von Google
Reddit unterstreicht, dass andere KI-Unternehmen einen anderen Weg eingeschlagen haben. Berichten zufolge zahlt Google Reddit jährlich 60 Millionen US-Dollar für Zugang zu Trainingsdaten, wodurch Reddit in den letzten Monaten in Googles Suchergebnissen deutlich stärker sichtbar wurde.
Dieser Vergleich zeigt die Unterschiede in der KI-Branche bei der Datenerwerbung: Während einige Unternehmen legalen Zugang durch Zahlung erwerben, versuchen andere, durch technische Mittel Beschränkungen zu umgehen.
Juristische Forderungen und Branchenfolgen
Reddit klagt Anthropic wegen Vertragsbruchs und unlauteren Wettbewerbsverhaltens an und fordert Entschädigung für verlorene Lizenzgebühren. Wichtiger ist jedoch, dass Reddit dem Gericht ein Verbot auferlegt, dass Anthropic Claudes oder anderer basierend auf Reddit-Daten trainierte KI-Modelle kommerziell nutzt.
Würde Reddit gewinnen, könnte dies Präzedenzfälle für ähnliche Klagen anderer Content-Plattformen gegen KI-Unternehmen schaffen und die Grenzen legaler Datenerwerbung neu definieren. Das Urteil wird die Praktiken und Kostenstrukturen der KI-Industrie entscheidend beeinflussen.
Die aktuelle Kontroverse spiegelt die grundlegende Spannung zwischen der raschen Entwicklung der KI und den traditionellen Urheberrechten und Datenschutzmechanismen wider. Der Rechtsstreit zwischen Reddit und Anthropic könnte einen Schlüsselurteilpunkt zur Bestimmung dieses Gleichgewichts werden.