Redditはサンフランシスコ地方裁判所で、人工知能(AI)会社のAnthropicに対して訴訟を提起しました。訴訟の理由は、Anthropicが許可なしにシステム的にRedditの投稿を収集し、Claude言語モデルのトレーニングに使用したことが、Redditの利用規約や商業利用規定に違反しているためです。
この訴訟は、AIトレーニングデータの取得に関する法的な争いを浮き彫りにし、コンテンツプラットフォームとAI企業間の緊張関係を示しています。Redditは、Anthropicに対し、Redditコンテンツを含むすべてのAIモデルやデータセットの削除を求めるとともに、Redditデータに基づいて訓練されたAIモデルの商業利用を禁止するよう裁判所に命じています。
技術保護措置の回避
訴訟ファイルによると、AnthropicはRedditの利用規約に反し、robots.txtファイルやIPベースのレート制限などの技術的な保護策を無視しました。さらに重要なのは、AnthropicがコンプライアンスAPIに接続しなかったことです。このAPIは、ユーザーが投稿を削除した際にライセンス保持者に通知し、関連するコンテンツがトレーニングシステムから削除されるように保証します。
訴訟では、Anthropicが研究でRedditデータを使用しており、r/science、r/IAmA、r/relationship_adviceなど40以上のサブフォーラムがClaudeの「高品質」データソースとしてリストアップされていることを認めていると指摘されています。Reddit側は、これらデータの収集は一切の同意を得られておらず、プラットフォームの保護策を違反していると主張しています。
公式発表と実際の行動の矛盾
最も論争を呼んでいるのは、Anthropicの広報担当者の発言と実際の行動の矛盾です。2024年7月、Anthropicの広報担当者はRedditが5月からClaudeBotのブラックリストに追加されていると述べましたが、Redditの内部ログによると、その発表以降も数カ月間にわたり、AnthropicのロボットによるRedditサーバーへのアクセス回数は10万回を超えていました。
この発見は、Anthropicの公式声明に対する疑念を抱かせ、Redditの訴訟において重要な証拠となっています。
ユーザーのプライバシーと商業的利益の両面からの脅威
Redditは訴状の中で、Anthropicの行為が同社の商業的利益を脅かすだけでなく、ユーザーのプライバシーも危険にさらしていると強調しています。ライセンスやコンプライアンスAPIがない場合、削除されたまたは機密扱いの投稿がClaudeモデルにまだ含まれているかどうかを確認することはできません。
「Anthropicのような第三者が許可なくRedditコンテンツを取得した場合、Redditのユーザーは公共コンテンツポリシーやプライバシーポリシーのいかなる保護も享受できなくなる可能性がある」と訴状には記載されており、ユーザーがどの第三者が自分のデータを取得したのかわからないため、特に問題となります。
この論点は、ユーザーが自身の投稿が後でどのように使われるべきかを決定する権利というAIトレーニングデータ使用の核心的な問題に直結しています。
比較: グーグルとの協力路線
Redditは、他のAI企業が異なる協力路線を選んだことも指摘しています。報道によると、グーグルは年間6000万ドルを支払いRedditからトレーニングデータを取得するライセンス契約を結び、最近数ヶ月でRedditがグーグル検索での露出が大幅に向上しました。
このような比較は、AI業界におけるデータ取得における分断を示しています。一部の企業は合法的なライセンスを取得するために費用を支払っていますが、他社は技術的な手段で制限を回避しようとしています。
法的請求と業界への影響
Redditの訴訟はAnthropicに違約および不当競争を訴え、ライセンス収入損失に対する賠償を求めています。もっとも重要なのは、Redditが裁判所に命じて、ClaudeやRedditデータに基づくAIモデルの商業利用を全面的に禁止するよう求めている点です。
もしRedditが勝訴すれば、他のコンテンツプラットフォームがAI企業に対して類似の訴訟を起こす際の先例となる可能性があります。この結果は、AI業界におけるデータ使用の慣行やコスト構造に大きな影響を与えるでしょう。
現在の争いは、AIの急速な発展と従来の著作権やプライバシー保護制度との根本的な対立を反映しています。Reddit対Anthropic訴訟は、このバランスを決定する重要な判例となるかもしれません。