Ovis-U1 da Alibaba é lançado com força: inteligência artificial multimodal integrada, código aberto para impulsionar desenvolvedores globais

AIbase基地

Publicado emNotícias e Informações de IA · 7 minutos de leitura · Jun 30, 2025

A 29 de junho de 2025, a equipe internacional de IA da Alibaba lançou oficialmente o novo modelo de grande dimensão multimodal **Ovis-U1**, marcando mais uma importante conquista na área de inteligência artificial multimodal. Como a nova obra-prima da série Ovis, o Ovis-U1 integra as funções de compreensão multimodal, geração de imagens e edição de imagens, demonstrando uma forte capacidade de processamento transmodal, oferecendo novas possibilidades para desenvolvedores, pesquisadores e aplicações industriais. A seguir, a AIbase apresenta um relato detalhado sobre o Ovis-U1.

Ovis-U1: Um framework unificado multimodal de três em um

O Ovis-U1 é um modelo com 3 bilhões de parâmetros construído pela equipe internacional de IA da Alibaba com base na arquitetura da série Ovis, que por primeira vez unificou a compreensão multimodal, a geração de imagens a partir de texto e a edição de imagens. Segundo informações da AIbase, o modelo adota um design inovador de arquitetura, alinhando eficientemente os embeddings visuais e textuais por meio de três componentes principais: o tokenizador visual (Visual Tokenizer), a tabela de embutimento visual e o modelo de linguagem grande (LLM). Essa abordagem estruturada de alinhamento supera as limitações dos modelos multimodais tradicionais nas conversões entre modos, melhorando significativamente o desempenho do modelo em cenários complexos.

O Ovis-U1 pode processar várias formas de entrada, como texto e imagens, e demonstra desempenho excepcional em tarefas como raciocínio matemático, reconhecimento de objetos, extração de texto e compreensão de vídeo. Por exemplo, ele pode não apenas identificar com precisão objetos ou textos manuscritos em imagens, mas também gerar imagens de alta qualidade ou editar imagens existentes conforme as instruções do usuário. Essa capacidade "três em um" faz com que tenha grande potencial de aplicação em áreas como educação, comércio eletrônico, saúde, condução autônoma, etc.

Destaque técnico: Treinamento eficiente e compartilhamento aberto

A pesquisa e desenvolvimento do Ovis-U1 contaram com estratégias avançadas de treinamento e conjuntos de dados diversos. Segundo as informações oficiais, o modelo foi construído com tecnologias como Python3.10, Torch2.4.0 e Transformers4.51.3, e durante o processo de treinamento utilizou otimização com DeepSpeed0.15.4, garantindo eficiência e estabilidade. Além disso, o Ovis-U1 mantém a tradição de código aberto da série Ovis, usando a licença Apache2.0, com código, pesos do modelo e dados de treinamento publicados no Hugging Face e GitHub, permitindo que os desenvolvedores possam rapidamente reproduzir e implantar com configurações simples de ambiente.

A AIbase observou que o Ovis-U1 introduziu algoritmos de verificação de conformidade durante o treinamento, garantindo que as saídas do modelo sigam requisitos éticos e legais. Essa abordagem transparente não só demonstra a contribuição da Alibaba para a comunidade de código aberto, mas também fornece ferramentas convenientes para desenvolvedores ao redor do mundo explorarem a inteligência artificial multimodal.

A capacidade multimodal do Ovis-U1 se destaca em aplicações práticas. Por exemplo, no setor de comércio eletrônico, o Ovis-U1 pode analisar imagens de produtos para gerar descrições em múltiplos idiomas ou editar imagens de exibição de produtos conforme as necessidades dos usuários, melhorando a experiência dos consumidores. Em cenários educacionais, ele consegue identificar fórmulas matemáticas escritas à mão e fornecer explicações detalhadas, auxiliando os estudantes no aprendizado. Além disso, o Ovis-U1 também suporta a geração de receitas, análise de conteúdo de vídeo e outras funcionalidades, proporcionando soluções inovadoras para inteligência doméstica e criação de conteúdo.

A AIbase acredita que o lançamento do Ovis-U1 não apenas reforçou a liderança da Alibaba na área de inteligência artificial multimodal, mas também promoveu a popularização e o progresso das tecnologias de IA globais por meio do modelo de código aberto. No futuro, o Ovis-U1 tem potencial para ser implementado em mais cenários industriais, tornando-se uma ponte inteligente que conecta visão, linguagem e decisão.

Desde o lançamento do Ovis-U1, há muitas discussões nas redes sociais. Muitos desenvolvedores elogiaram a multifuncionalidade e as características de código aberto do modelo, acreditando que ele oferece uma solução de IA de baixa barreira para pequenas e médias empresas e desenvolvedores individuais. A AIbase espera que, com o uso amplo do Ovis-U1, mais casos inovadores surjam na comunidade.

Projeto: (https://huggingface.co/AIDC-AI/Ovis-U1-3B)

O sistema operacional de IA NeuralOS surge no cenário! Simula perfeitamente a interface do Windows, nova era da interação humano-máquina

Uma equipe chinesa lançou o sistema operacional de IA aberto NeuralOS, que realizou a visão de GUI para a era da IA proposta por Karpathy. O sistema usa dois módulos principais, RNN e renderizador neural, para prever e simular em tempo real a interface do Windows, exibindo com precisão as respostas às ações do usuário. A equipe de desenvolvimento treinou o sistema com muitos vídeos de operações, e atualmente pode prever com precisão as ações do usuário, mas ainda apresenta limitações ao lidar com entradas rápidas do teclado. O NeuralOS já oferece uma versão de experiência online, mostrando uma nova experiência de sistema operacional gerado dinamicamente pela IA. À medida que os códigos...

Jornal da IA: ByteDance lançará a versão 2.0 da ferramenta de programação de IA TRAE; Mistral apresenta com destaque o modelo de áudio Voxtral; Moonshot responde sobre a lentidão da API Kimi K2

1. ByteDance adiciona interação por voz ao TRAE2.0. 2. Mistral lança modelo de áudio Voxtral. 3. Otimização do Kimi K2API. 4. Kunlun lança AgentOrchestra. 5. Thinking Machines Lab recebe US$ 2 bi. 6. Kimi-2 supera GPT-4.1. 7. TRAE lança Kimi-K2. 8. ByteDance abre POLARIS. 9. Ima lança versão web.....

Atualização do Google NotebookLM: nova biblioteca de anotações públicas que aprimora a experiência de anotações inteligentes

O Google atualizou o aplicativo de anotações de IA NotebookLM, adicionando a funcionalidade de biblioteca de anotações públicas. Essa biblioteca integra conteúdos autoritários como o The Economist e anotações de especialistas, permitindo aos usuários fazer perguntas e obter resumos gerados por IA. Foram adicionadas novas funções como resumo de áudio e mapas mentais, com os primeiros recursos abrangendo guias sobre longevidade, dicas de viagem e outros conteúdos úteis. Atualmente, a plataforma já acumulou mais de 140 mil anotações de usuários, melhorando a eficiência da gestão do conhecimento por meio de tecnologia de IA e reforçando a ecologia de compartilhamento de informações.

Huang Renxun aparece na Exposição da Cadeia: IA se tornará a nova infraestrutura global, os desenvolvedores chineses desempenham um papel crucial

CEO da NVIDIA, Jensen Huang, destacou a transformação da empresa para IA na feira Chain Expo China. Ele ressaltou o impacto da IA na indústria global, com 1,5 milhão de projetos chineses na plataforma NVIDIA, incluindo modelos como DeepSeek. Huang enfatizou a importância da IA open-source da China e apresentou o Omniverse, que apoia digitalização de cadeias de suprimentos. Previu que a IA liderará a revolução industrial na próxima década.....

O teclado de voz inteligente Willow recebe um financiamento inicial de 4,2 milhões de dólares e mira um novo futuro para o sistema operacional de voz

Startup de voz inteligente Willow levantou US$4,2 milhões para desenvolver sistema operacional de voz. Tecnologia TNT combina deep learning e NLP para interpretar comandos complexos. Equipe pivoteou de saúde após falha, focando em interação por voz. Estratégia: modular e open-source para competir com gigantes. Desafios incluem suporte multilíngue e privacidade.....

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Ovis-U1 da Alibaba é lançado com força: inteligência artificial multimodal integrada, código aberto para impulsionar desenvolvedores globais

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

O sistema operacional de IA NeuralOS surge no cenário! Simula perfeitamente a interface do Windows, nova era da interação humano-máquina

Uber se une à LuoBo Kuaipai, milhares de Robotaxis estarão disponíveis globalmente

Jornal da IA: ByteDance lançará a versão 2.0 da ferramenta de programação de IA TRAE; Mistral apresenta com destaque o modelo de áudio Voxtral; Moonshot responde sobre a lentidão da API Kimi K2

Ferramentas de programação com IA se direcionam silenciosamente para a interface de terminal, o futuro do desenvolvimento pode mudar totalmente!

Kimi-2 está disponível no LiveBench AI: um novo campeão de IA aberta ultrapassa o GPT-4.1

Atualização do Google NotebookLM: nova biblioteca de anotações públicas que aprimora a experiência de anotações inteligentes

Huang Renxun aparece na Exposição da Cadeia: IA se tornará a nova infraestrutura global, os desenvolvedores chineses desempenham um papel crucial

Nova empresa da ex-CTO da OpenAI, Mira Murati, completa financiamento de 2 bilhões de dólares para avançar no desenvolvimento de inteligência artificial multimodal

O teclado de voz inteligente Willow recebe um financiamento inicial de 4,2 milhões de dólares e mira um novo futuro para o sistema operacional de voz

O ferramenta de programação de IA da ByteDance TRAE2.0 será lançada em breve, adicionando funcionalidade de interação por voz