8月31日、上海人工知能実験室(上海AIラボ)は、マルチモーダル大規模モデル「Shueng·Wanxiang InternVL3.5」をオープンソースでリリースしました。このモデルは、イノベーティブな段階的強化学習(Cascade RL)、動的なビジュアル解像度ルーティングと分離型デプロイアーキテクチャを採用し、推論能力、デプロイ効率、および汎用性の面で全面的なアップグレードを実現しました。InternVL3.5は、1Bから241Bまでの全パラメータサイズのバージョンをオープンソースで提供し、オープンソースモデルの性能基準を刷新し、さまざまなタスクでリーディングレベルに達しています。

InternVL3.5のエースモデルであるInternVL3.5-241B-A28Bは、多分野推論ベンチマークMMMUでオープンソースモデルとして最高得点の77.7点を獲得し、マルチモーダル一般的な認識ベンチマークMMStarとOCRBenchではそれぞれ77.9点と90.7点を記録し、GPT-5(75.7点/80.7点)を上回りました。テキスト推論ベンチマークAIME25とMMLU-Proではそれぞれ75.6点と81.3点を達成し、現行のオープンソースマルチモーダル大規模モデルを全面的に上回っています。段階的強化学習フレームワークによって、全シリーズのモデルの推論性能は前世代平均で16.0ポイント向上しました。その中でも、InternVL3.5-241B-A28Bの総合推論性能は66.9点となり、前世代モデルの54.6点とClaude-3.7-Sonnetの53.9点を上回り、数学的推論や論理的推論などの複雑なタスクにおいて突出した性能を発揮しています。

微信截图_20250901092244.png

イノベーティブなビジュアル解像度ルーティング(ViR)と分離型デプロイフレームワーク(DvD)により、38Bモデルは896解像度での応答速度が大幅に向上し、単一の推論遅延は369msから91msへと約4倍改善されました。一方、軽量化されたInternVL3.5-Flashは、ビジュアルシーケンス長を50%短縮しても、ほぼ100%の性能を維持しています。

InternVL3.5は、GUIエージェント、具身エージェント、SVGグラフィック理解・生成などのエージェントのコア能力を強化しており、ScreenSpot GUI定位(92.9点)、VSI-Bench空間推論(69.5点)、SGP-Benchベクトル図理解(70.6点)などのタスクで主流のオープンソースモデルを上回っています。

InternVL3.5は、10億から2410億のパラメータを含む9種類のモデルを提供し、異なるリソース要件のシナリオに対応しており、密接モデルとエキスパート混合モデル(MoE)を含んでいます。これは、GPT-OSS言語モデルベースをサポートする最初のオープンソースマルチモーダル大規模モデルです。公式には、`transformers`を使用して`InternVL3.5-8B`を動作させるための例コードが提供されており、モデルは最大で1枚のA100GPUに配置できます。38Bモデルは2枚のA100GPUが必要であり、235Bモデルは8枚のA100GPUが必要です。

ms-swiftは、InternVL3.5シリーズモデルのトレーニングをサポートしています。ms-swiftは魔搭コミュニティが公式に提供する大規模モデルとマルチモーダル大規模モデルのトレーニングとデプロイフレームワークです。ユーザーはデータを特定のフォーマットに準備してカスタムデータセットのファインチューニングを行うことができます。トレーニング後、適切なコマンドで推論を行い、モデルをModelScopeにプッシュすることができます。

InternVL3.5のリリースは、マルチモーダル大規模モデル技術の重要な進展を示しており、研究者や開発者に強力なツールを提供し、マルチモーダルAIの発展を促進しています。

コードのオープンソース/モデルの使用方法:

https://github.com/OpenGVLab/InternVL

モデルのコレクション:

https://www.modelscope.cn/collections/InternVL35-Full-3871e58bf21349

オンライン体験:

https://chat.intern-ai.org.cn/