Recentemente, a Alibaba International lançou oficialmente sua nova geração de modelo multimodal Ovis2.5 e o tornou de código aberto. Este modelo se concentra na percepção visual de resolução nativa, raciocínio profundo e design de cenários de alto custo-benefício, visando melhorar ainda mais as capacidades de aplicação da inteligência artificial. A pontuação geral do Ovis2.5 nos conjuntos de avaliação multimodal principais OpenCompass aumentou significativamente em comparação com a versão anterior Ovis2, mantendo-se no nível SOTA (Tecnologia Mais Avançada) entre os modelos de código aberto da mesma categoria.
O lançamento do Ovis2.5 inclui duas versões com diferentes tamanhos de parâmetros. Primeiro, o Ovis2.5-9B obteve uma alta pontuação de 78,3 no teste OpenCompass, superando muitos modelos com maior quantidade de parâmetros e ficando em primeiro lugar entre os modelos de código aberto com menos de 40B de parâmetros. Em segundo lugar, o Ovis2.5-2B obteve uma pontuação geral de 73,9, continuando com a filosofia da série Ovis "pequeno tamanho, grande poder", sendo especialmente adequado para aplicações nas extremidades e cenários com recursos limitados.
No conjunto geral de arquitetura do Ovis2.5, a equipe informou que realizou inovações sistemáticas, principalmente nas áreas de arquitetura do modelo, estratégias de treinamento e engenharia de dados. Na arquitetura do modelo, o Ovis2.5 continua com o design alinhado estruturado inovador da série, composto por três componentes principais: extração de características visuais com resolução dinâmica, módulo de vocabulário visual para alinhar visual e texto estruturalmente, e uma forte capacidade de processamento de linguagem baseada no Qwen3.
Na estratégia de treinamento, o Ovis2.5 adota um plano de cinco etapas mais refinado, incluindo pré-treinamento visual básico, pré-treinamento multimodal e ajuste de instrução em larga escala, entre outros passos. Além disso, algoritmos como DPO e GRPO foram usados para reforçar o alinhamento de preferências e a capacidade de raciocínio, melhorando efetivamente o desempenho do modelo. Além disso, a velocidade de treinamento do modelo foi acelerada 3 a 4 vezes.
Na engenharia de dados, o volume de dados do Ovis2.5 aumentou em 50% em comparação com o Ovis2, com foco especial em áreas-chave como raciocínio visual, gráficos, OCR (reconhecimento óptico de caracteres) e Grounding. Especialmente, foram sintetizados grandes quantidades de dados "pensamentos" profundamente compatíveis com o Qwen3, que estimularam significativamente o potencial do modelo de reflexão e raciocínio.
O código e os modelos do Ovis2.5 estão disponíveis nos plataformas GitHub e Hugging Face, e os usuários podem obter os recursos relacionados por meio dessas plataformas para explorar ainda mais seu potencial de aplicação.
Código: https://github.com/AIDC-AI/Ovis
Modelo: https://huggingface.co/AIDC-AI/
Principais pontos:
🌟 O Ovis2.5 obteve uma pontuação geral de 78,3 no teste OpenCompass, mantendo-se no nível SOTA.
🔧 Inclui duas versões, o Ovis2.5-9B é adequado para aplicações em larga escala, enquanto o Ovis2.5-2B se concentra em cenários com recursos limitados.
📊 Adota uma arquitetura e estratégia de treinamento inovadores, o volume de dados aumentou em 50%, com foco em áreas-chave como raciocínio visual.