Recentemente, o Laboratório de Inteligência Artificial de Xangai colaborou com várias universidades renomadas para lançar uma nova geração de modelo de geração e compreensão multimodal — Lumina-DiMOO. Esse modelo foi nomeado como "modelo de linguagem grande de difusão abrangente", com o objetivo de impulsionar o desenvolvimento da tecnologia de IA multimodal. A Lumina-DiMOO adota uma arquitetura inovadora de "difusão discreta total", superando as limitações dos modelos tradicionais na processamento de texto e imagens, fornecendo soluções mais eficientes.

image.png

A essência da IA multimodal está em como integrar efetivamente diferentes tipos de dados. A Lumina-DiMOO mapeia dados como texto, imagem e áudio para um espaço "semântico de alta dimensão" compartilhado, permitindo que os dados de diferentes modos sejam melhor compreendidos e gerados. O sucesso dessa abordagem depende de uma forte tecnologia de aprendizado contrastivo, que permite ao modelo identificar e alinhar as relações entre diferentes tipos de dados.

No design do modelo, a "modelagem de difusão discreta total" da Lumina-DiMOO trata todos os dados como objetos que podem ser gradualmente "limpos" e "gerados". Essa abordagem não apenas simplifica a estrutura do modelo, mas também melhora significativamente a qualidade e a eficiência da geração. Ao contrário dos modelos multimodais anteriores, a Lumina-DiMOO combina velocidade e precisão, obtendo resultados de alta qualidade com poucos passos nas tarefas de geração de imagens.

Além disso, a Lumina-DiMOO tem uma ampla aplicabilidade em cenários. Seja na geração de imagens a partir de texto, compreensão de imagens ou geração baseada em temas, o modelo se sai bem. Além disso, ele possui uma forte capacidade de análise de imagens, podendo identificar detalhes e atmosfera nas imagens, oferecendo aos usuários uma compreensão profunda.

O lançamento da Lumina-DiMOO marca mais uma importante evolução no campo de IA multimodal, esperando-se que demonstre ainda mais desempenho em vários cenários de aplicação no futuro.

Projeto: https://github.com/Alpha-VLLM/Lumina-DiMOO

Principais pontos:

🌟 A Lumina-DiMOO é um novo modelo de geração multimodal, que utiliza uma arquitetura inovadora de "difusão discreta total" para melhorar a eficiência no processamento de dados.  

🛠️ Esse modelo realiza o alinhamento e compreensão eficazes de diferentes tipos de dados, como texto e imagem, por meio da tecnologia de aprendizado contrastivo.  

🚀 A Lumina-DiMOO demonstra excelentes desempenhos na geração e compreensão de imagens, sendo capaz de se adaptar a diversos cenários de aplicação, mostrando potencial de aplicação amplo.