MouSi é um modelo de linguagem visual multimodal que visa solucionar os desafios enfrentados pelos atuais modelos de linguagem visual de grande escala (VLMs). Ele emprega a técnica de especialistas integrados, combinando as capacidades de codificadores visuais individuais, incluindo correspondência de texto a imagem, OCR e segmentação de imagem. O modelo introduz uma rede de fusão para processar uniformemente as saídas de diferentes especialistas visuais, e para preencher a lacuna entre o codificador de imagem e os LLMs pré-treinados. Além disso, MouSi explora diferentes esquemas de codificação posicional para resolver eficazmente o desperdício de codificação posicional e as limitações de comprimento. Os resultados experimentais demonstram que os VLMs com múltiplos especialistas apresentam desempenho superior aos codificadores visuais isolados, e que o desempenho melhora significativamente com a integração de mais especialistas.