A 29 de junho de 2025, a equipe internacional de IA da Alibaba lançou oficialmente o novo modelo de grande dimensão multimodal **Ovis-U1**, marcando mais uma importante conquista na área de inteligência artificial multimodal. Como a nova obra-prima da série Ovis, o Ovis-U1 integra as funções de compreensão multimodal, geração de imagens e edição de imagens, demonstrando uma forte capacidade de processamento transmodal, oferecendo novas possibilidades para desenvolvedores, pesquisadores e aplicações industriais. A seguir, a AIbase apresenta um relato detalhado sobre o Ovis-U1.
Ovis-U1: Um framework unificado multimodal de três em um
O Ovis-U1 é um modelo com 3 bilhões de parâmetros construído pela equipe internacional de IA da Alibaba com base na arquitetura da série Ovis, que por primeira vez unificou a compreensão multimodal, a geração de imagens a partir de texto e a edição de imagens. Segundo informações da AIbase, o modelo adota um design inovador de arquitetura, alinhando eficientemente os embeddings visuais e textuais por meio de três componentes principais: o tokenizador visual (Visual Tokenizer), a tabela de embutimento visual e o modelo de linguagem grande (LLM). Essa abordagem estruturada de alinhamento supera as limitações dos modelos multimodais tradicionais nas conversões entre modos, melhorando significativamente o desempenho do modelo em cenários complexos.
O Ovis-U1 pode processar várias formas de entrada, como texto e imagens, e demonstra desempenho excepcional em tarefas como raciocínio matemático, reconhecimento de objetos, extração de texto e compreensão de vídeo. Por exemplo, ele pode não apenas identificar com precisão objetos ou textos manuscritos em imagens, mas também gerar imagens de alta qualidade ou editar imagens existentes conforme as instruções do usuário. Essa capacidade "três em um" faz com que tenha grande potencial de aplicação em áreas como educação, comércio eletrônico, saúde, condução autônoma, etc.
Destaque técnico: Treinamento eficiente e compartilhamento aberto
A pesquisa e desenvolvimento do Ovis-U1 contaram com estratégias avançadas de treinamento e conjuntos de dados diversos. Segundo as informações oficiais, o modelo foi construído com tecnologias como Python3.10, Torch2.4.0 e Transformers4.51.3, e durante o processo de treinamento utilizou otimização com DeepSpeed0.15.4, garantindo eficiência e estabilidade. Além disso, o Ovis-U1 mantém a tradição de código aberto da série Ovis, usando a licença Apache2.0, com código, pesos do modelo e dados de treinamento publicados no Hugging Face e GitHub, permitindo que os desenvolvedores possam rapidamente reproduzir e implantar com configurações simples de ambiente.
A AIbase observou que o Ovis-U1 introduziu algoritmos de verificação de conformidade durante o treinamento, garantindo que as saídas do modelo sigam requisitos éticos e legais. Essa abordagem transparente não só demonstra a contribuição da Alibaba para a comunidade de código aberto, mas também fornece ferramentas convenientes para desenvolvedores ao redor do mundo explorarem a inteligência artificial multimodal.
A capacidade multimodal do Ovis-U1 se destaca em aplicações práticas. Por exemplo, no setor de comércio eletrônico, o Ovis-U1 pode analisar imagens de produtos para gerar descrições em múltiplos idiomas ou editar imagens de exibição de produtos conforme as necessidades dos usuários, melhorando a experiência dos consumidores. Em cenários educacionais, ele consegue identificar fórmulas matemáticas escritas à mão e fornecer explicações detalhadas, auxiliando os estudantes no aprendizado. Além disso, o Ovis-U1 também suporta a geração de receitas, análise de conteúdo de vídeo e outras funcionalidades, proporcionando soluções inovadoras para inteligência doméstica e criação de conteúdo.
A AIbase acredita que o lançamento do Ovis-U1 não apenas reforçou a liderança da Alibaba na área de inteligência artificial multimodal, mas também promoveu a popularização e o progresso das tecnologias de IA globais por meio do modelo de código aberto. No futuro, o Ovis-U1 tem potencial para ser implementado em mais cenários industriais, tornando-se uma ponte inteligente que conecta visão, linguagem e decisão.
Desde o lançamento do Ovis-U1, há muitas discussões nas redes sociais. Muitos desenvolvedores elogiaram a multifuncionalidade e as características de código aberto do modelo, acreditando que ele oferece uma solução de IA de baixa barreira para pequenas e médias empresas e desenvolvedores individuais. A AIbase espera que, com o uso amplo do Ovis-U1, mais casos inovadores surjam na comunidade.
Projeto: (https://huggingface.co/AIDC-AI/Ovis-U1-3B)