MouSi est un modèle linguistique visuel multimodal conçu pour relever les défis auxquels sont confrontés les grands modèles linguistiques visuels (VLMs) actuels. Il utilise une technique d'experts intégrés, combinant les capacités de codeurs visuels individuels, notamment la correspondance texte-image, la reconnaissance optique de caractères (OCR) et la segmentation d'image. Ce modèle intègre un réseau de fusion pour traiter uniformément les sorties des différents experts visuels et combler le fossé entre le codeur d'image et les LLMs pré-entraînés. De plus, MouSi explore différentes stratégies d'encodage de position pour résoudre efficacement les problèmes de gaspillage d'encodage de position et de limitations de longueur. Les résultats expérimentaux montrent que les VLMs à experts multiples présentent des performances supérieures à celles des codeurs visuels isolés, avec une amélioration significative des performances à mesure que l'on intègre davantage d'experts.