情報

AIニュース

AIの最先端を探索、業界トレンドを完全マスター

AIニュース日報

毎日更新！AIホットトピックス＆業界最前線

情報

AIツールを探す

精確な製品選定＆多角的市場調査

AI製品ランキング

話題のAI製品総合力＆バズ度ランキング（年間/月間/デイリー）

AIプロダクト登録

AI製品を登録して、認知度アップ＆ユーザー獲得を加速！

ツール

AIツールディレクトリ

AIツール総合ナビ！あなたにピッタリのツールが見つかる

ツール

GEO ブランドビジビリティ

ワンストップGEOブランドインサイト

GEOブランドAI可視性診断

あなたのブランドがAI検索でどのように評価され、表示されているかをワンクリックで確認します

GEOランキング照会ツール

AIプラットフォーム上のブランド認知度を測定する

GEO順位モニタリングツール

大量クエリ × 定期的なGEO順位チェック

AI対話キーワード発掘

ユーザーがAIに尋ねるトレンド質問を発掘し、コンテンツ制作を最適化

GEOプロモーションリンク検出

プロモ記事引用を素早く評価、データで意思決定を支援

サービス

GEOランキング最適化システム

独自のGEOシステムを所有し、プロフェッショナルなGEO最適化サービスプロバイダーになりましょう

GEO順位最適化サービス

GEOサービスにより、御社の企業やブランドのAI検索における支配的な表示を実現

情報

MCPサーバー

人気AI-MCPサービスを集約、あなたに適したサービスを迅速発見

MCPクライアント

MCPクライアントに簡単接続、強力なAI機能を呼び出し

MCPケースチュートリアル

MCP使用テクニックを学習、入門から上級まで

MCPランキング

人気MCPサービス性能ランキング、最適選択をサポート

MCPサービス提出

あなたのMCPサービスを公開・プロモーション

ツール

MCP実験場

MCPサービスを自由にテスト、オンラインで迅速体験

MCPインスペクター

MCPサービス迅速テスト、迅速リリース

情報

大規模言語モデルAPI

主要なLLM APIを一つのインターフェースで。

AIモデルファインダー

全種類AIモデル完備！開発から研究まで、あなたのニーズを完全サポート

LLMプロバイダー

信頼できるAIモデルパートナーを見つけよう！安心のサポート体制

LLMランキング

人気AI大規模モデル性能・注目度・年/月/日ランキング

ツール

大規模言語モデルAPIプロキシチェッカー

5つの評価基準で、安心できる大模型プロキシを厳選

LLM比較選定

AI大規模モデル徹底比較！あなたにピッタリのモデルが見つかる

LLMコスト計算機

AIモデルのコストを正確に把握！スマートな予算計画で無駄を削減

LLMアリーナ

マルチモデルリアルタイム評価、モデル出力結果迅速比較

AIモデル互換性チェッカー

PC環境でDeepSeek・Llamaが動作するか無料診断

モデル展開サーバー構成計算機

大規模モデルの計算力要件を入力すると、最適なGPU・メモリ・サーバー構成を即座に推薦

Anthropic が数百万ドルを費やして大量の本を購入し、Claudeのトレーニングに使用した後、最終的に破壊した

AIbase基地

公開日AIニュース · 1 分で読めます · Jun 26, 2025

最近、人工知能企業のAnthropicが独自の図書デジタル化方法で注目を浴びました。外資系メディアArs Technicaの報道によると、AnthropicはAIアシスタントClaudeの訓練のために数百万ドルをかけて大量の実体書を購入し、解体してスキャンすることでデジタルファイルに変換しました。このプロセスの後、元の本は直接破棄されました。

Claude2、Anthropic、人工知能、チャットボットクレード

裁判所文書によると、Anthropicは2024年2月にTom Turveyを雇い、彼はGoogle Booksプロジェクトに関与した経験を持ち、「世界中の本を入手する」ことを担当しました。この行動は明らかに、グーグルが図書デジタル化において裁判所から適正使用と認められたモデルを参考にしようとしていたものです。

裁判官William Alsupは裁定で、Anthropicのスキャン方法は適正使用であると判断しました。その理由は、これらの本は合法的に購入され、スキャン後に即座に破棄されたためで、デジタルファイルは内部でのみ使用され、外部には公開されていないからです。彼は、このような変換は「スペース節約」のデジタル処理と見なされ、適正使用における「転用性」の特徴を持っていると指摘しました。ただし、初期の著作権侵害行為はその合法性に若干の影響を与えたとのことです。

AIの訓練には大規模な優れたテキストデータが必要であり、大規模言語モデルを構築するには何十億語もの単語をニューラルネットワークにインプットし、語と概念の関係を確立しなければなりません。データの質はモデルの出力の正確さに直接影響するため、多くのAI企業は高品質な出版物を迅速に取得したいと考えていますが、通常は許諾交渉に時間をかけることは好ましくありません。

米国の「初回販売の原則」により、実体書を購入した人はその後の処分を自由に行うことができ、これは図書の購入を合法的な「迂回手段」としています。しかし、Anthropicも最初は著作権問題を回避しようとし、時には盗版電子書籍を使用していました。法的検討の結果、同社はより安全な代替手段を求め、最終的に中古本を購入することに決めました。これにより、高品質なトレーニングテキストを取得し、許諾プロセスを簡略化できるようになったのです。

デジタル化の進捗を速めるために、Anthropicは「破壊的スキャン」と呼ばれる方法を採用しました。これは大量の本を購入し、開封・カットして一括で機械読取可能なPDFファイルにスキャンする方法です。このプロセスには数百万ドルが費やされました。現在では非破壊的なスキャン技術がすでに成熟しており、例えばInternet Archiveが開発した元の本を保持できるデジタル化手法もありますが、Anthropicが選んだ方法は依然として広範な議論を巻き起こしています。

ポイント：
📚 Anthropicは数百万ドルをかけて実体書を購入し、解体してスキャンすることでデジタルファイルに変換し、AIアシスタントClaudeのトレーニングに使用しました。
⚖️ 裁判官は、本が合法的に購入されスキャン後に破棄されたことから、Anthropicのスキャン方法が適正使用であると裁定しました。
🔄 AIのトレーニングには大量の優れたテキストデータが必要であり、Anthropicは「破壊的スキャン」によって図書のデジタル化プロセスを加速させました。

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成