MouSiは、現在の巨大視覚言語モデル(VLMs)が直面する課題を解決することを目的とした、多モーダル視覚言語モデルです。個々の視覚エンコーダの能力を統合専門家技術によって協調させ、画像テキストマッチング、OCR、画像セグメンテーションなどを含みます。本モデルは、異なる視覚専門家からの出力を統合的に処理するための融合ネットワークを導入し、画像エンコーダと事前学習済みLLMs間のギャップを埋めます。さらに、MouSiは位置エンコーディングの無駄と長さの制限の問題を効果的に解決するための様々な位置エンコーディングスキームを検討しています。実験結果によると、複数の専門家を持つVLMsは、単独の視覚エンコーダよりも優れた性能を示し、統合する専門家が増えるにつれて顕著な性能向上を実現します。