最近、人工知能企業のAnthropicは数百万ドルを投入し、大量の本を購入・「解体」して、AIアシスタントのClaudeのトレーニングに使用しました。この行動は公衆の広範な注目と法界での議論を引き起こしました。

Ars Technicaという外メディアによると、Anthropicはトレーニングデータを取得するために、かなり議論を呼ぶ方法を採用しました。彼らは大量の実体書を解体し、スキャンしてデジタルファイルに変換した後、原件を破壊しました。このやり方は裁判文書で明らかにされ、ウィリアム・アルサップ裁判官が裁定を行いました。裁判官は、Anthropicが合法的な経路で購入した本であり、スキャン後に即座に破壊されたものであり、デジタルファイルは内部的にのみ使用されており、外部に公開されていないことから、このスキャン方法は適正使用に該当すると指摘しました。この判決は、他のAI企業がデータを取得する際に法律上の参考となりました。

ロボット AI 人工知能 (2)

図の出典:画像はAIによって生成され、画像のライセンス提供者であるMidjourneyによるものです。

この戦略の背景には、Anthropicがグーグルブックスプロジェクトの成功事例を参考にしたいという願望がありました。AnthropicのCEOアモデイは、以前会社は盗版電子書籍を使用することを検討したが、法的リスクのため、最終的に中古本を購入することで高品質なトレーニングテキストを得ることを選択したと述べました。「破壊的スキャン」により、会社は本を機械が読み取れるPDF形式に迅速かつ効率的に変換し、AIモデルのトレーニングに必要な十分なデータを提供できました。

しかし、非破壊的スキャン技術はすでに相当成熟しています。例えば、Internet Archiveは元の本を保持しながらのデジタル化方法を開発しました。OpenAIやマイクロソフトも最近、ハーバード大学図書館と協力して、数百万冊のパブリックドメインの本をデジタル化する計画を立てており、これらの本のオリジナル版が適切に保存されることを確保しています。これらの業界の仲間と比較すると、Anthropicの取り組みは少し過激ですが、AIトレーニング分野において新たな考え方を提示しました。