MiDashengLM-7B da Xiaomi: Desempenho em compreensão de áudio quebra o SOTA e velocidade de inferência aumenta 20 vezes

AIbase基地

Publicado emNotícias e Informações de IA · 9 minutos de leitura · Aug 4, 2025

A Xiaomi lançou oficialmente e abriu totalmente o código fonte do modelo multimodal MiDashengLM-7B, um modelo de inteligência artificial focado na compreensão de áudio, que alcançou avanços significativos em desempenho e eficiência. O modelo não apenas estabeleceu novos recordes em 22 conjuntos de avaliação públicos, mas também demonstrou vantagens surpreendentes em eficiência de raciocínio — o atraso no primeiro Token para uma única amostra é apenas um quarto do que é encontrado em modelos avançados da indústria, e a eficiência de throughput de dados é mais de 20 vezes maior.

Estrutura técnica: design de dois núcleos para compreensão completa de áudio

O MiDashengLM-7B adota um design inovador de arquitetura de dois núcleos, utilizando o Xiaomi Dasheng como codificador de áudio e combinando-o com o Qwen2.5-Omni-7B Thinker como decodificador autoregressivo. Essa abordagem inteligentemente integra as capacidades especializadas de processamento de áudio com poderosas habilidades de compreensão linguística, fornecendo uma base técnica para o excelente desempenho do modelo.

Interpretação simultânea de áudio, fones sem fio

O principal destaque tecnológico deste modelo é sua estratégia de treinamento universal para descrições de áudio. Modelos tradicionais de IA de áudio geralmente se concentram em um único tipo de som, seja em reconhecimento de voz ou análise musical. O MiDashengLM-7B rompeu essa limitação, permitindo a compreensão unificada de voz, sons ambientais e música. Essa capacidade de compreensão total de áudio é rara na indústria.

Por meio dessa estratégia de treinamento unificada, o modelo pode manter alta precisão ao lidar com conversas humanas, identificar informações de cenário com precisão ao analisar sons ambientais e reconhecer características de ritmo, emoção e estilo ao entender música. Essa capacidade de compreensão transversal de áudio permite uma ampla variedade de aplicações práticas.

Avanços de desempenho: liderança em 22 avaliações

No que diz respeito ao desempenho, o MiDashengLM-7B apresenta resultados notáveis. O modelo superou os melhores desempenhos dos modelos multimodais em 22 conjuntos de avaliação públicos, uma conquista que comprova claramente sua liderança tecnológica na área de compreensão de áudio.

O mais destacado é o aumento revolucionário em eficiência de raciocínio. O atraso no primeiro Token (TTFT) para uma única amostra é apenas um quarto do que é encontrado em modelos avançados da indústria, o que significa que os usuários terão uma experiência de interação mais suave. Sob as mesmas condições de memória de vídeo, a eficiência de throughput de dados é mais de 20 vezes maior do que a de modelos avançados da indústria, uma vantagem de eficiência que tem grande importância para implantações em larga escala e cenários em tempo real.

Essa vantagem de desempenho foi alcançada graças à acumulação técnica da Xiaomi em otimização de arquitetura de modelo e melhoria nas estratégias de treinamento. Com um codificador de áudio bem projetado e mecanismos de decodificação eficientes, o modelo reduz significativamente o custo computacional mantendo alta precisão.

Série Dasheng: importante atualização da tecnologia de IA de áudio

O MiDashengLM-7B é uma versão aprimorada da série Dasheng da Xiaomi. O codificador de áudio Xiaomi Dasheng, como componente central, passou por várias iterações e otimizações técnicas, formando um sistema técnico relativamente maduro. Este novo modelo apresenta uma atualização abrangente com base nas versões anteriores, melhorando não apenas a precisão da compreensão de áudio, mas também aprimorando significativamente a eficiência computacional.

A partir da perspectiva do desenvolvimento tecnológico, a série Dasheng reflete a longa trajetória tecnológica da Xiaomi no campo de IA de áudio. Por meio de acumulação contínua de tecnologia e melhoria iterativa, a Xiaomi já construiu uma cadeia completa de tecnologias, desde o codificação de áudio até a compreensão multimodal, fornecendo uma base para inovações futuras.

Plano futuro: implantação em dispositivos finais e aprimoramento de funcionalidades

A Xiaomi não se limitou aos logros atuais, mas visou um futuro mais amplo de aplicações. Segundo informações oficiais, a empresa já começou a aprimorar ainda mais a eficiência computacional do modelo, com o objetivo de implementá-lo offline em dispositivos finais. Essa direção estratégica tem significado importante, pois significa que os usuários poderão desfrutar de serviços de IA de áudio de alta qualidade sem depender de serviços em nuvem.

A implementação de deploy offline nos dispositivos finais trará melhores proteções de privacidade e custos mais baixos para os usuários, além de oferecer suporte técnico para aplicações de IA de áudio na ecologia IoT da Xiaomi. Sejam alto-falantes inteligentes, celulares ou outros dispositivos inteligentes, todos poderão integrar essa potente capacidade de compreensão de áudio.

No que diz respeito à expansão de funcionalidades, a Xiaomi está aprimorando funções de edição de som baseadas em dicas naturais do usuário. Isso significa que os usuários poderão realizar tarefas complexas de processamento de áudio com descrições simples em texto, reduzindo ainda mais a barreira técnica para edição de áudio.

Significado do código aberto: impulsionar o desenvolvimento conjunto da indústria

A Xiaomi escolheu abrir totalmente o código fonte do MiDashengLM-7B, demonstrando seu compromisso com a compartilhamento de tecnologia. Essa decisão não só contribui para a evolução tecnológica da área de IA de áudio, mas também fornece oportunidades valiosas para pesquisadores e desenvolvedores aprenderem e melhorarem.

A implementação da estratégia de código aberto acelera a difusão e aplicação da tecnologia de IA de áudio, especialmente em instituições de pesquisa e empresas emergentes com recursos limitados. Ao reduzir a barreira de acesso à tecnologia, mais aplicações inovadoras devem surgir com base nisso, promovendo o crescimento do ecossistema da indústria.

Alibaba Cloud lança o primeiro modelo de IA multimodal global, Qwen3-Omni, que realiza o processamento unificado de texto, imagens, áudio e vídeo

A Alibaba Cloud lançou o primeiro modelo de IA multimodal nativo end-to-end global, o Qwen3-Omni, e o tornou open source. Esse modelo suporta entradas multimodais como texto, imagens, áudio e vídeo, realizando saídas em tempo real. Com pré-treinamento em texto e treinamento misto multimodal, o Qwen3-Omni possui uma forte capacidade multimodal e se destaca em vários campos.

O novo modelo multimodal aberto pela Xiaomi Xiaomi MiMo-VL-7B-2508

A equipe de modelos grandes da Xiaomi anunciou o lançamento do novo modelo multimodal aberto Xiaomi MiMo-VL-7B-2508, que inclui duas versões, RL e SFT. Dados oficiais mostram que o novo modelo superou recordes em quatro habilidades centrais: raciocínio acadêmico, compreensão de documentos, localização de interface gráfica e compreensão de vídeo. O benchmark MMMU ultrapassou pela primeira vez a marca de 70 pontos, ChartQA subiu para 94,4, ScreenSpot-v2 chegou a 92,5 e VideoMME aumentou para 70,8.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

MiDashengLM-7B da Xiaomi: Desempenho em compreensão de áudio quebra o SOTA e velocidade de inferência aumenta 20 vezes

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

O modelo multimodal LLaVA-OneVision-1.5 totalmente aberto supera o Qwen2.5-VL

Sete modelos da Alibaba Tongyi dominam o Hugging Face! Modelo multimodal Qwen3-Omni fica em primeiro lugar no mundo

Alibaba lança oficialmente o modelo de grande multimodal Qwen3-Omni

Jornal AI: Alibaba lança modelo multimodal Qwen3-Omni; Google lança protocolo AP2; Baidu lança modelo Qianfan-VL

​Alibaba Cloud lança o primeiro modelo de IA multimodal global, Qwen3-Omni, que realiza o processamento unificado de texto, imagens, áudio e vídeo

Qwen3-Omni chega em breve: modelo multimídia no lado do terminal é atualizado novamente PR foi submetido à biblioteca Transformers

Modelo de Tradução Hunyuan-MT-7B da Tencent é Aberto com Grandes Resultados, Conquistando 30 Primeiros Lugares em Competições Internacionais

Tencent Open Source Translation Giant Hunyuan-MT-7B: Vence 30 Campeonatos do WMT2025, o Novo Líder da Tradução!

A Xiaomi lança mais um cavalo negro de IA! O modelo de grande multimodal aberto MiMo-VL-7B-2508 apresenta um aumento significativo no desempenho e suporta a mudança para o modo de pensamento

O novo modelo multimodal aberto pela Xiaomi Xiaomi MiMo-VL-7B-2508

Notícias de IA Relacionadas Recomendadas

O modelo multimodal LLaVA-OneVision-1.5 totalmente aberto supera o Qwen2.5-VL

Sete modelos da Alibaba Tongyi dominam o Hugging Face! Modelo multimodal Qwen3-Omni fica em primeiro lugar no mundo

Alibaba lança oficialmente o modelo de grande multimodal Qwen3-Omni

Jornal AI: Alibaba lança modelo multimodal Qwen3-Omni; Google lança protocolo AP2; Baidu lança modelo Qianfan-VL

​Alibaba Cloud lança o primeiro modelo de IA multimodal global, Qwen3-Omni, que realiza o processamento unificado de texto, imagens, áudio e vídeo

Qwen3-Omni chega em breve: modelo multimídia no lado do terminal é atualizado novamente PR foi submetido à biblioteca Transformers

Modelo de Tradução Hunyuan-MT-7B da Tencent é Aberto com Grandes Resultados, Conquistando 30 Primeiros Lugares em Competições Internacionais

Tencent Open Source Translation Giant Hunyuan-MT-7B: Vence 30 Campeonatos do WMT2025, o Novo Líder da Tradução!

A Xiaomi lança mais um cavalo negro de IA! O modelo de grande multimodal aberto MiMo-VL-7B-2508 apresenta um aumento significativo no desempenho e suporta a mudança para o modo de pensamento

O novo modelo multimodal aberto pela Xiaomi Xiaomi MiMo-VL-7B-2508

GEO Services

Alibaba Cloud lança o primeiro modelo de IA multimodal global, Qwen3-Omni, que realiza o processamento unificado de texto, imagens, áudio e vídeo

Alibaba Cloud lança o primeiro modelo de IA multimodal global, Qwen3-Omni, que realiza o processamento unificado de texto, imagens, áudio e vídeo