Recentemente, o modelo multimodal MiMo-VL desenvolvido pela Xiaomi Company assumiu o bastão do MiMo-7B e demonstrou uma força poderosa em várias áreas. O modelo supera significativamente modelos de benchmark multimodais com a mesma configuração, como o Qwen2.5-VL-7B, em tarefas como perguntas e respostas gerais e compreensão de imagens, vídeos e linguagem. Além disso, sua performance no tarefa de GUI Grounding pode ser comparada a modelos especializados, preparando-se para a chegada da era dos Agentes.

captura-de-tela-do-whatsapp_20250530093852.png

O MiMo-VL-7B alcançou resultados impressionantes nas tarefas de inferência multimodal, embora tenha apenas 7 bilhões de parâmetros. Ele lidera significativamente os modelos Alibaba Qwen-2.5-VL-72B e QVQ-72B-Preview, que têm 10 vezes mais parâmetros, nos testes olímpicos (OlympiadBench) e competições matemáticas (MathVision, MathVerse), além de superar o modelo fechado GPT-4o. Durante a avaliação interna do desempenho real do usuário, o MiMo-VL-7B superou o GPT-4o, tornando-se um destaque entre os modelos open source. Em aplicações práticas, o modelo se destaca na inferência e resposta a imagens complexas e também demonstra potencial nas operações de GUI com até 10 passos ou mais, ajudando os usuários a adicionar o Xiaomi SU7 à lista de desejos.

A capacidade abrangente de percepção visual do MiMo-VL-7B é resultado de dados de pré-treinamento de alta qualidade e um algoritmo inovador de aprendizado por reforço online híbrido (MORL). No processo de pré-treinamento multietapa, a Xiaomi coletou, limpou e combinou dados multimodais de alta qualidade, incluindo pares de imagem-texto, vídeo-texto e sequências de operação GUI, totalizando 2,4 trilhões de tokens. Através da ajuste faseado das proporções desses dados, foi possível fortalecer a habilidade de inferência multimodal de longo alcance. O aprendizado por reforço online híbrido combina sinais de feedback como推理 em texto, percepção + inferência multimodal e RLHF, e acelera estávelmente o treinamento por meio de algoritmos de aprendizado por reforço online, melhorando amplamente o desempenho de inferência e percepção do modelo, bem como a experiência do usuário.

Links relacionados: https://huggingface.co/XiaomiMiMo.