O MMStar é um conjunto de testes de referência projetado para avaliar a capacidade multimodal de grandes modelos de linguagem visual. Ele contém 1500 amostras cuidadosamente selecionadas de linguagem visual, cobrindo 6 capacidades principais e 18 dimensões específicas. Cada amostra foi revisada manualmente para garantir a dependência visual, minimizar vazamentos de dados e exigir capacidades multimodais avançadas para resolução. Além dos indicadores tradicionais de precisão, o MMStar propõe dois novos indicadores para medir o vazamento de dados e o ganho de desempenho real do treinamento multimodal. Os pesquisadores podem usar o MMStar para avaliar a capacidade multimodal de modelos de linguagem visual em várias tarefas e, com a ajuda dos novos indicadores, identificar problemas potenciais nos modelos.