NVIDIAは2025年6月3日に、ドキュメントのインテリジェント処理を最適化したコンパクトなビジュアル-言語モデル(VLM)である「Llama Nemotron Nano VL」を正式に発表しました。このモデルは、OCRBench v2ベンチマークテストで首位に輝き、複雑なドキュメント、チャート、およびビデオフレームの処理において卓越した能力を示しました。効率的な推論性能と柔軟な展開方法により、Llama Nemotron Nano VLはクラウドからエッジデバイスまで高精度なドキュメント処理ソリューションを企業に提供します。

image.png

Llama Nemotron Nano VL: コンパクトで効率的なドキュメント処理の強力なツール

Llama Nemotron Nano VLは、MetaのLlama3.1アーキテクチャに基づいており、軽量級の視覚エンコーダCRadioV2-Hと組み合わせて、パラメータ規模はわずか8Bですが、ドキュメント理解タスクで優れたパフォーマンスを発揮します。このモデルはマルチモーダル入力をサポートし、複数ページのドキュメント、スキャンされたテーブル、財務レポート、技術チャートなど、複雑なシナリオに対応可能です。コンテキスト長は最大16Kトークンに達し、長いドキュメント処理やマルチステップ推論タスクに適しています。

その主な特徴は効率的な推論性能です。AWQ4bit量子化技術によって、このモデルは単一のNVIDIA RTX GPUまたはJetson Orinエッジデバイス上で動作し、展開コストを大幅に削減できます。これにより、限られたリソース環境でAIエージェントを実行する必要がある企業にとって理想的な選択肢となります。

OCRBench v2でトップ、ドキュメント解析能力がリード

Llama Nemotron Nano VLはOCRBench v2ベンチマークテストで最高得点を獲得し、同種のコンパクトなビジュアル-言語モデルを上回りました。OCRBench v2には人工的に検証された10,000を超える質問応答ペアが含まれており、金融、医療、法律、科学出版などの分野のドキュメントがカバーされています。テスト項目には光学文字認識(OCR)、テーブル解析、チャート推論が含まれます。

image.png

このモデルは構造化データ(テーブルやキー値ペア)の抽出およびレイアウトに基づく質問への回答において優れたパフォーマンスを示し、特に非英語のドキュメントや低品質のスキャンシーンでは強力なロバスト性を発揮しました。このような高い精度と汎化能力により、自動化されたドキュメントQA、スマートOCR、情報抽出などのシナリオでの幅広い活用が期待されます。

柔軟な展開で企業の多様な用途を支援

Llama Nemotron Nano VLはデータセンターからエッジデバイスまでの柔軟な展開が可能です。NVIDIAのTensorRT-LLMフレームワークと互換性があり、GPUアクセラレーションシステムでの効率的な動作を保証します。企業はNVIDIA NeMoマイクロサービスを使用して特定分野向けにカスタマイズでき、例えば財務分析、医療記録処理、法的ドキュメントレビューなどに適応させることができます。

さらに、このモデルは単一画像やビデオ推論をサポートし、画像要約、テキスト-画像分析、インタラクティブQAなどのタスクにも適用可能です。オープンソース性(NVIDIA Open Model LicenseとLlama3.1Community Licenseに準拠)により商業利用が許可されており、開発者はカスタムAIエージェントを構築する自由を得られます。

NVIDIAの知能エージェント分野での戦略的投資

Llama Nemotron Nano VLはNVIDIA Nemotronモデルファミリーの一員であり、知能エージェント(Agentic AI)分野における継続的な投資を象徴しています。LlamaアーキテクチャとNVIDIAの最適化技術の組み合わせにより、このモデルは推論効率を向上させ、ドキュメント処理分野で新たな基準を確立しました。

NVIDIAはNeMoフレームワークとNIMマイクロサービスを通じてモデル機能をさらに拡張し、ビデオ検索や物理感知ビデオ生成などのより多くのマルチモーダルタスクをサポートすることを計画しています。これはNVIDIAがエッジからクラウドまでの包括的なAIエコシステムを構築し、企業のデジタルトランスフォーメーションを強力に支援していることを示しています。

Llama Nemotron Nano VLの発表は、コンパクトなビジュアル-言語モデルが企業向けアプリケーションで新たな突破口を開いたことを示しています。その効率性と精度により、自動化されたドキュメント処理、知識管理、そして知的協力を新しい可能性へと導きます。AIbaseは引き続きNVIDIAのAI分野での最新動向を追跡し、読者に最先端の技術洞察を提供します。

アクセス先: https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1