InternViT-6B-448px-V2_5は、InternViT-6B-448px-V1-5をベースとしたビジョンモデルです。ViT増分学習とNTP損失(Phase 1.5)を用いることで、ビジョンエンコーダーによる視覚特徴抽出能力が向上しました。特に、多言語OCRデータや数学図表など、大規模ネットワークデータセットにおいて表現不足になりやすい分野において効果を発揮します。このモデルはInternVL 2.5シリーズの一部であり、前世代と同様の「ViT-MLP-LLM」モデルアーキテクチャを維持しつつ、増分学習済みInternViTと様々な事前学習済みLLM(InternLM 2.5やQwen 2.5など)を統合し、ランダム初期化されたMLPプロジェクターを使用しています。