最近、新たな研究が注目を集めています。それは、OpenAIが最新のAIモデルのトレーニングにO'Reilly Mediaの有料書籍を使用しながら、許可を得ていなかったという告発です。この研究は、メディア大物Tim O'Reilly氏と経済学者Ilan Strauss氏が2024年に共同設立した非営利団体、AI Disclosures Projectによって発表されました。

著作権(1)

AIモデルは複雑な予測エンジンと見なすことができます。それらは書籍、映画、テレビ番組など大量のデータからパターンを学習し、簡単なプロンプトに対して推測を行います。モデルが文章を作成する場合、例えばギリシャ悲劇に関する記事の作成や、様式化された画像の描画など、実際には膨大な知識ベースから情報を抽出しており、全く新しいコンテンツを作成しているわけではありません。

OpenAIを含む多くのAIラボが、現実世界のデータ(主に公共のネットワークリソース)の枯渇という課題に対処するために、AI生成データを使用してモデルをトレーニングするようになり、トレーニング方法も変化しています。それにもかかわらず、合成データに完全に依存することのリスクから、多くの機関は依然として実データを使用してトレーニングすることを選択しています。

この研究の論文では、OpenAIのGPT-4oモデルは、O'Reillyの有料書籍に基づいてトレーニングされている可能性が高いと指摘しています。そして、O'ReillyはOpenAIとライセンス契約を結んでいませんでした。研究によると、GPT-4oは、以前のGPT-3.5Turboモデルと比較して、O'Reillyの有料書籍の内容を識別する能力が著しく向上しています。

研究者たちは、言語モデルのトレーニングデータ内の著作権コンテンツを検出するためにDE-COPと呼ばれる方法を使用しました。研究では、GPT-4o、GPT-3.5Turbo、その他のOpenAIモデルの知識を分析し、34冊のO'Reilly書籍から13962個の段落抜粋を使用して、これらの抜粋がモデルのトレーニングデータ中に存在する確率を推定しました。

研究の結果、GPT-4oはより多くの有料O'Reilly書籍の内容について高い識別度を示しており、これはある程度、モデルがトレーニング中にこれらの非公開の書籍の内容にアクセスしていた可能性を示唆しています。

しかしながら、研究者たちは、これが決定的な証拠ではないとも指摘しています。OpenAIは、ユーザーがコピー&ペーストした方法でこれらのコンテンツを取得した可能性もあります。さらに、研究ではOpenAIの最新のモデルは評価されていないため、これらのモデルがO'Reillyの有料書籍を使用してトレーニングされていない可能性も排除できません。

OpenAIは一部のトレーニングデータについては有料で取得しており、ニュース出版社やソーシャルネットワークなどとの合意も結んでいますが、現在の法的環境下では、トレーニングデータの使用方法は依然として多くの疑問を投げかけています。この研究は、トレーニングデータの使用に関する多くの訴訟の中で、OpenAIがさらに厳しい課題に直面することを意味します。

要点:

📚 OpenAIは、O'Reillyの有料書籍を無許可で使用してAIモデルをトレーニングしたと非難されています。

🔍 研究によると、GPT-4oはO'Reilly書籍の識別能力が以前のモデルよりも著しく向上しています。

⚖️ OpenAIは、トレーニングデータの使用に関して複数の法的課題に直面しています。