最近、人工知能企業のAnthropicが独自の図書デジタル化方法で注目を浴びました。外資系メディアArs Technicaの報道によると、AnthropicはAIアシスタントClaudeの訓練のために数百万ドルをかけて大量の実体書を購入し、解体してスキャンすることでデジタルファイルに変換しました。このプロセスの後、元の本は直接破棄されました。

Claude2、Anthropic、人工知能、チャットボットクレード

裁判所文書によると、Anthropicは2024年2月にTom Turveyを雇い、彼はGoogle Booksプロジェクトに関与した経験を持ち、「世界中の本を入手する」ことを担当しました。この行動は明らかに、グーグルが図書デジタル化において裁判所から適正使用と認められたモデルを参考にしようとしていたものです。

裁判官William Alsupは裁定で、Anthropicのスキャン方法は適正使用であると判断しました。その理由は、これらの本は合法的に購入され、スキャン後に即座に破棄されたためで、デジタルファイルは内部でのみ使用され、外部には公開されていないからです。彼は、このような変換は「スペース節約」のデジタル処理と見なされ、適正使用における「転用性」の特徴を持っていると指摘しました。ただし、初期の著作権侵害行為はその合法性に若干の影響を与えたとのことです。

AIの訓練には大規模な優れたテキストデータが必要であり、大規模言語モデルを構築するには何十億語もの単語をニューラルネットワークにインプットし、語と概念の関係を確立しなければなりません。データの質はモデルの出力の正確さに直接影響するため、多くのAI企業は高品質な出版物を迅速に取得したいと考えていますが、通常は許諾交渉に時間をかけることは好ましくありません。

米国の「初回販売の原則」により、実体書を購入した人はその後の処分を自由に行うことができ、これは図書の購入を合法的な「迂回手段」としています。しかし、Anthropicも最初は著作権問題を回避しようとし、時には盗版電子書籍を使用していました。法的検討の結果、同社はより安全な代替手段を求め、最終的に中古本を購入することに決めました。これにより、高品質なトレーニングテキストを取得し、許諾プロセスを簡略化できるようになったのです。

デジタル化の進捗を速めるために、Anthropicは「破壊的スキャン」と呼ばれる方法を採用しました。これは大量の本を購入し、開封・カットして一括で機械読取可能なPDFファイルにスキャンする方法です。このプロセスには数百万ドルが費やされました。現在では非破壊的なスキャン技術がすでに成熟しており、例えばInternet Archiveが開発した元の本を保持できるデジタル化手法もありますが、Anthropicが選んだ方法は依然として広範な議論を巻き起こしています。

ポイント:

📚 Anthropicは数百万ドルをかけて実体書を購入し、解体してスキャンすることでデジタルファイルに変換し、AIアシスタントClaudeのトレーニングに使用しました。

⚖️ 裁判官は、本が合法的に購入されスキャン後に破棄されたことから、Anthropicのスキャン方法が適正使用であると裁定しました。

🔄 AIのトレーニングには大量の優れたテキストデータが必要であり、Anthropicは「破壊的スキャン」によって図書のデジタル化プロセスを加速させました。