O Laboratório de IA de Xangai apresenta Lumina-DiMOO, abrindo uma nova era para geração e compreensão multimodais

AIbase基地

Publicado emNotícias e Informações de IA · 4 minutos de leitura · Sep 16, 2025

Recentemente, o Laboratório de Inteligência Artificial de Xangai colaborou com várias universidades renomadas para lançar uma nova geração de modelo de geração e compreensão multimodal — Lumina-DiMOO. Esse modelo foi nomeado como "modelo de linguagem grande de difusão abrangente", com o objetivo de impulsionar o desenvolvimento da tecnologia de IA multimodal. A Lumina-DiMOO adota uma arquitetura inovadora de "difusão discreta total", superando as limitações dos modelos tradicionais na processamento de texto e imagens, fornecendo soluções mais eficientes.

A essência da IA multimodal está em como integrar efetivamente diferentes tipos de dados. A Lumina-DiMOO mapeia dados como texto, imagem e áudio para um espaço "semântico de alta dimensão" compartilhado, permitindo que os dados de diferentes modos sejam melhor compreendidos e gerados. O sucesso dessa abordagem depende de uma forte tecnologia de aprendizado contrastivo, que permite ao modelo identificar e alinhar as relações entre diferentes tipos de dados.

No design do modelo, a "modelagem de difusão discreta total" da Lumina-DiMOO trata todos os dados como objetos que podem ser gradualmente "limpos" e "gerados". Essa abordagem não apenas simplifica a estrutura do modelo, mas também melhora significativamente a qualidade e a eficiência da geração. Ao contrário dos modelos multimodais anteriores, a Lumina-DiMOO combina velocidade e precisão, obtendo resultados de alta qualidade com poucos passos nas tarefas de geração de imagens.

Além disso, a Lumina-DiMOO tem uma ampla aplicabilidade em cenários. Seja na geração de imagens a partir de texto, compreensão de imagens ou geração baseada em temas, o modelo se sai bem. Além disso, ele possui uma forte capacidade de análise de imagens, podendo identificar detalhes e atmosfera nas imagens, oferecendo aos usuários uma compreensão profunda.

O lançamento da Lumina-DiMOO marca mais uma importante evolução no campo de IA multimodal, esperando-se que demonstre ainda mais desempenho em vários cenários de aplicação no futuro.

Projeto: https://github.com/Alpha-VLLM/Lumina-DiMOO

Principais pontos:
🌟 A Lumina-DiMOO é um novo modelo de geração multimodal, que utiliza uma arquitetura inovadora de "difusão discreta total" para melhorar a eficiência no processamento de dados.
🛠️ Esse modelo realiza o alinhamento e compreensão eficazes de diferentes tipos de dados, como texto e imagem, por meio da tecnologia de aprendizado contrastivo.
🚀 A Lumina-DiMOO demonstra excelentes desempenhos na geração e compreensão de imagens, sendo capaz de se adaptar a diversos cenários de aplicação, mostrando potencial de aplicação amplo.

Modelo de Geração e Compreensão Multimodal Lumina-DiMOO Arquitetura de Difusão Discreta Integral Tecnologia de IA

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

Tencent Video lança restauração por IA com lista de filmes clássicos que recriam a qualidade 4K

腾讯视频 lançou lista de filmes restaurados em 4K com IA, incluindo clássicos como '食神' e '哪吒传奇', disponível para SVIPs no modo '臻彩 MAX'.....

Sep 19, 2025

A revolução da IA chega ao campo da ultrassonografia em Hong Kong! Novo modelo de inteligência artificial ajuda os médicos a diagnosticar com facilidade

Hong Kong lançou o modelo EchoCare 'Lingyin', o primeiro do mundo treinado com 400 mil imagens de ultrassom, desenvolvido pelo CAIR para melhorar diagnósticos e reduzir a escassez de médicos.....

Sep 19, 2025

Engine do Vulcão domina o mercado! Análise dos Serviços de Modelo Grande da Nuvem Pública na China em 2025

Relatório da IDC prevê que até 2025 a China terá 536,7 trilhões de chamadas de modelos em nuvem pública. Volcano Engine lidera com 49,2%, seguido por Alibaba Cloud (27%) e Baidu AI Cloud (17%).....

Sep 19, 2025

A transação de mil bilhões entre a Oracle e a OpenAI: uma nova oportunidade de investimento ou um risco arriscado?

Oracle e OpenAI assinaram um acordo de US$300 bilhões, elevando ações de IA, mas especialistas alertam para riscos de investimentos excessivos em infraestrutura de IA.....

Sep 19, 2025

A Alibaba Cloud lança o novo modelo de geração de ações Wan2.2-Animate e o disponibiliza gratuitamente!

A Alibaba Cloud lançou o modelo Wan2.2-Animate, uma versão aprimorada do Animate Anyone, para facilitar a criação de vídeos curtos, dança e animação. Disponível no GitHub, HuggingFace e plataforma Bailian, com melhorias em consistência e qualidade.....

Sep 19, 2025

Jornal da IA: Xiaomi abre o primeiro modelo de linguagem de áudio native end-to-end; Wan2.2-Animate da Tongyi Wanxiang é oficialmente aberto; Suno v5 está prestes a ser lançado

Bem-vindo ao programa "Jornal da IA"! Aqui é o seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os assuntos mais recentes no campo da IA, focando nos desenvolvedores, ajudando você a compreender as tendências tecnológicas e conhecer aplicações inovadoras de produtos de IA. Produtos de IA novos, clique para saber mais: https://app.aibase.com/zh1, o Modelo de Linguagem de Áudio End-to-End Original da Xiaomi Xiaomi anuncia que abriu o código do seu primeiro modelo de linguagem de áudio end-to-end original Xiaomi-MiMo

Sep 19, 2025

A Shengshu Technology recebe financiamento de centenas de milhões de yuans, liderando uma nova onda de comercialização da IA com geração de vídeos

Recentemente, a empresa pioneira no campo de Inteligência Artificial Multimodal, Shengshu Technology, anunciou com sucesso a conclusão de uma rodada A de financiamento de centenas de milhões de yuans. Essa rodada foi liderada pela Bocai Capital, enquanto investidores como o fundo de investimento estratégico da Baidu e o Fundo de Indústria de Inteligência Artificial de Pequim continuaram a acompanhar, demonstrando o alto reconhecimento do mercado à Shengshu Technology. A empresa planeja usar esses recursos para promover ainda mais o desenvolvimento de modelos e inovações tecnológicas, explorar o potencial dos grandes modelos multimodais e acelerar assim o desenvolvimento de produtos e serviços aos usuários. A tecnologia multimodal, especialmente no campo da geração de vídeos, está em fase de rápido desenvolvimento.

Sep 19, 2025

Novas funcionalidades de IA no navegador Google Chrome: como os usuários da internet devem lidar?

A Google anunciou recentemente que o navegador Chrome receberá a maior atualização já feita, principalmente melhorando a experiência do usuário por meio da inclusão de funcionalidades de IA. Esta atualização será enviada hoje para os usuários de macOS e Windows nos Estados Unidos, e os usuários com configurações em inglês serão os primeiros a experimentar essas novas funcionalidades. Mike Torres, vice-presidente de produtos da Google, disse que o núcleo desta atualização é a "transformação em Gemini", e os usuários poderão obter uma IA para páginas da web por meio do novo botão Gemini.

Sep 19, 2025

O modelo de música Suno v5 vai chegar, trazendo uma transformação revolucionária na criação musical com IA

Recentemente, o Suno causou discussão global com um vídeo de pré-visualização misterioso: o seu quinto modelo de música v5 será lançado. Este anúncio foi considerado pela indústria como um marco revolucionário para a criação musical com IA e deve tornar ainda mais difíceis as fronteiras entre a composição humana e a gerada por máquinas, reduzindo significativamente os obstáculos para criadores, desde entusiastas até profissionais. O Suno oficialmente postou um vídeo curto de 15 segundos no seu site de redes sociais na noite de 18 de setembro. As imagens mostravam notas musicais abstratas misturadas com luzes, acompanhadas por uma melodia eletrônica baixa, terminando com o texto "coming soon".

Sep 19, 2025

Modelo de geração de ações da Tongyi Wanxiang, Wan2.2-Animate, é oficialmente aberto ao público

Em 19 de setembro de 2025, a Alibaba Cloud anunciou que o modelo de geração de ações da Tongyi Wanxiang, Wan2.2-Animate, foi oficialmente aberto ao público. Este modelo pode impulsionar fotos de pessoas, personagens animados e animais, sendo amplamente aplicado em criação de vídeos curtos, geração de modelos de dança e produção de animações. Os usuários podem baixar o modelo e o código no GitHub, HuggingFace e na comunidade Mota, ou usar a API por meio da plataforma Alibaba Cloud BaiLian, ou experimentar diretamente no site oficial da Tongyi Wanxiang. Wan2.2-Animate

Sep 19, 2025

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

O Laboratório de IA de Xangai apresenta Lumina-DiMOO, abrindo uma nova era para geração e compreensão multimodais

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Tencent Video lança restauração por IA com lista de filmes clássicos que recriam a qualidade 4K

A revolução da IA chega ao campo da ultrassonografia em Hong Kong! Novo modelo de inteligência artificial ajuda os médicos a diagnosticar com facilidade

Engine do Vulcão domina o mercado! Análise dos Serviços de Modelo Grande da Nuvem Pública na China em 2025

A transação de mil bilhões entre a Oracle e a OpenAI: uma nova oportunidade de investimento ou um risco arriscado?

A Alibaba Cloud lança o novo modelo de geração de ações Wan2.2-Animate e o disponibiliza gratuitamente!

Jornal da IA: Xiaomi abre o primeiro modelo de linguagem de áudio native end-to-end; Wan2.2-Animate da Tongyi Wanxiang é oficialmente aberto; Suno v5 está prestes a ser lançado

A Shengshu Technology recebe financiamento de centenas de milhões de yuans, liderando uma nova onda de comercialização da IA com geração de vídeos

Novas funcionalidades de IA no navegador Google Chrome: como os usuários da internet devem lidar?

O modelo de música Suno v5 vai chegar, trazendo uma transformação revolucionária na criação musical com IA

Modelo de geração de ações da Tongyi Wanxiang, Wan2.2-Animate, é oficialmente aberto ao público

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

O Laboratório de IA de Xangai apresenta Lumina-DiMOO, abrindo uma nova era para geração e compreensão multimodais

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Tencent Video lança restauração por IA com lista de filmes clássicos que recriam a qualidade 4K

A revolução da IA chega ao campo da ultrassonografia em Hong Kong! Novo modelo de inteligência artificial ajuda os médicos a diagnosticar com facilidade

Engine do Vulcão domina o mercado! Análise dos Serviços de Modelo Grande da Nuvem Pública na China em 2025

A transação de mil bilhões entre a Oracle e a OpenAI: uma nova oportunidade de investimento ou um risco arriscado?

A Alibaba Cloud lança o novo modelo de geração de ações Wan2.2-Animate e o disponibiliza gratuitamente!

Jornal da IA: Xiaomi abre o primeiro modelo de linguagem de áudio native end-to-end; Wan2.2-Animate da Tongyi Wanxiang é oficialmente aberto; Suno v5 está prestes a ser lançado

A Shengshu Technology recebe financiamento de centenas de milhões de yuans, liderando uma nova onda de comercialização da IA com geração de vídeos

​Novas funcionalidades de IA no navegador Google Chrome: como os usuários da internet devem lidar?

O modelo de música Suno v5 vai chegar, trazendo uma transformação revolucionária na criação musical com IA

Modelo de geração de ações da Tongyi Wanxiang, Wan2.2-Animate, é oficialmente aberto ao público

GEO Services

Novas funcionalidades de IA no navegador Google Chrome: como os usuários da internet devem lidar?