4月11日、OpenGVLabはInternVL3シリーズモデルをオープンソースで公開しました。これは、マルチモーダル大規模言語モデル(MLLM)分野における新たなマイルストーンとなる出来事です。InternVL3シリーズは、1Bから78Bまでの7つのサイズを備えたモデル群で、テキスト、画像、ビデオなど様々な情報を同時に処理し、優れた総合性能を発揮します。
前世代製品であるInternVL2.5と比較して、InternVL3はマルチモーダルな認識と推論能力が大幅に向上しており、そのマルチモーダル能力は、ツール使用、GUIエージェント、産業画像分析、3Dビジョン認識など、複数の分野にまで拡大しています。さらに、ネイティブなマルチモーダル事前学習のおかげで、InternVL3シリーズのテキスト性能は、InternVL3の言語コンポーネントの初期化に使用されたQwen2.5シリーズを上回っています。
InternVL3シリーズモデルのアーキテクチャは、「ViT-MLP-LLM」パラダイムを引き継いでおり、ランダムに初期化されたMLPプロジェクターを使用して、新たに増分学習されたInternViTと様々な事前学習済みLLM(InternLM3とQwen2.5を含む)を統合しています。
モデル推論においては、InternVL3はピクセルアンシャッフル操作を適用し、視覚トークンの数を元の4分の1に削減し、動的解像度戦略を採用して、画像を448×448ピクセルのタイルに分割します。InternVL2.0からの重要な違いは、複数画像とビデオデータのサポートを追加で導入した点です。また、InternVL3は可変視覚位置エンコーディング(V2PE)を統合し、視覚トークンにより小さく柔軟な位置増分を提供することで、優れたロングコンテキスト理解能力を実現しています。
モデルのデプロイにおいては、InternVL3はLMDeployのapi_serverを使用してOpenAI互換APIとしてデプロイできます。ユーザーはlmdeploy>=0.7.3をインストールし、関連コマンドを使用するだけでデプロイを完了できます。モデル呼び出し時には、OpenAIのAPIインターフェースを通じて、モデル名、メッセージ内容などのパラメーターを指定して、モデルの応答を取得できます。
体験アドレス:https://modelscope.cn/collections/InternVL3-5d0bdc54b7d84e