この度、人工知能企業Anthropicは、Claude 3.5 SonnetモデルにPDFファイル処理機能を追加したことを発表しました。現在、この機能はパブリックテスト段階に入っています。ユーザーは、このモデルを使用して、画像、グラフ、表などのテキストと視覚要素を含むPDFドキュメントを分析できるようになり、財務報告書、法律文書、文書翻訳など、さまざまな場面で活用できます。

Claude 3.5 SonnetのPDF処理プロセスは3つのステップに分かれています。まず、システムはドキュメントからテキストコンテンツを抽出します。次に、各ページが画像に変換され、より詳細な分析が行われます。これにより、ユーザーはテキスト情報だけでなく、PDFファイルの視覚情報も把握できます。

特筆すべき点として、ClaudeのPDF機能は、特定の情報を抽出してツール入力として使用するという他の機能と組み合わせることも可能です。ただし、アップロードするファイルは32MB未満で、ページ数は100ページ以内である必要があります。現在、暗号化またはパスワードで保護されたドキュメントはサポートされていません。

PDFファイルの処理費用は、ドキュメントの長さとコンテンツ密度によって異なります。通常、1ページあたり1,500~3,000トークンが消費されますが、標準的なトークン料金を超える追加料金はかかりません。この新機能は、Claude Chat機能とAPIアクセスを通じて利用でき、APIリクエストには「anthropic-beta: pdfs-2024-09-25」という特定のリクエストヘッダーを使用する必要があります。Anthropicは今後、この機能をAmazon BedrockとGoogle Vertex AIプラットフォームに拡張する予定です。

処理効果を高めるために、Anthropicは、ドキュメントに読みやすいテキストがあり、ページレイアウトが正しいことを確認することを推奨しています。また、特定のコンテンツを参照する際には、PDFリーダーに表示されているページ番号を使用してください。APIを使用する際には、PDFファイルをテキストの前に配置してください。ドキュメントが大きすぎて制限を超える場合は、より小さな部分に分割することをお勧めします。最後に、同じドキュメントを複数回分析する場合は、処理効率を高めるためにプロンプトキャッシュの使用を検討してください。

要点:

📄 AnthropicがClaude 3.5 Sonnetを発表、PDFファイル処理機能を追加し、テキストと画像の分析をサポート。  

🖼️ 処理プロセスは、テキスト抽出、ページを画像への変換、総合分析の3つのステップに分かれています。  

💰 処理費用はドキュメントの長さとコンテンツ密度によって異なり、ファイルサイズとページ数の制限に従う必要があります。