Modelo de grande linguagem de áudio ponto a ponto Step-Audio 2 mini

AIbase基地

Publicado emNotícias e Informações de IA · 6 minutos de leitura · Sep 1, 2025

O Step-Audio2mini, o modelo de linguagem de áudio de código aberto mais forte da StepZen, foi oficialmente lançado em 1º de setembro. O modelo obteve resultados SOTA (State-of-the-Art) em vários conjuntos de benchmark internacionais, unificando a modelagem de compreensão de voz, raciocínio e geração de áudio. Ele se destaca nas tarefas de compreensão de áudio, reconhecimento de voz, tradução entre idiomas, análise de emoções e linguagem paralinguística, bem como diálogo de voz, e é o primeiro a oferecer capacidade nativa de chamada de ferramentas por voz, permitindo operações como pesquisa na internet. O Step-Audio2mini é descrito como "ouvir claramente, entender perfeitamente e falar naturalmente". O modelo já está disponível nos plataformas GitHub e Hugging Face, para download, teste e feedback pelos usuários.

O Step-Audio2mini obteve resultados SOTA em vários benchmarks importantes, destacando-se nas áreas de compreensão de áudio, reconhecimento de voz, tradução e cenários de diálogo, com desempenho superior a todos os modelos de linguagem de áudio de código aberto, incluindo Qwen-Omni e Kimi-Audio, e superando o GPT-4o Audio em maioria das tarefas. No conjunto de testes multimodal geral MMAU, o Step-Audio2mini obteve uma pontuação de 73,2, liderando os modelos de linguagem de áudio de código aberto; no URO Bench, que mede a capacidade de diálogo oral, o Step-Audio2mini obteve as maiores pontuações entre os modelos de linguagem de áudio de código aberto, tanto na categoria básica quanto na avançada; na tarefa de tradução entre chinês e inglês, o Step-Audio2mini obteve pontuações de 39,3 e 29,1 nos conjuntos de avaliação CoVoST2 e CVSS, superando significativamente o GPT-4o Audio e outros modelos de áudio de código aberto; no reconhecimento de voz, o Step-Audio2mini obteve os melhores resultados em múltiplos idiomas e dialetos, com uma taxa média de erro de palavra (WER) de 3,50 no conjunto de teste de inglês de código aberto e uma taxa média de erro de caractere (CER) de 3,19 no conjunto de teste de chinês de código aberto, superando outros modelos de código aberto em mais de 15%.

微信截图_20250901101946.png

O Step-Audio2mini resolve efetivamente os problemas dos modelos anteriores por meio de um design inovador de arquitetura, sendo capaz de "pensar com a mente e sentir com o coração". Ele utiliza uma arquitetura multimodal verdadeiramente de ponta a ponta, superando a estrutura tradicional de ASR + LLM + TTS em três etapas, permitindo a conversão direta de entrada de áudio original para saída de resposta de voz, com uma arquitetura mais simples e menor latência, além de ser capaz de compreender efetivamente informações paralinguísticas e sinais não humanos. Além disso, o Step-Audio2mini introduz pela primeira vez na arquitetura de modelos de linguagem de áudio de ponta a ponta a combinação de raciocínio em cadeia (CoT) e otimização por reforço, permitindo compreensão, raciocínio e respostas naturais sobre linguagem paralinguística e sinais não de voz, como emoções, tom de voz e música. O modelo também suporta ferramentas externas, como busca na web, ajudando a resolver problemas de alucinação e proporcionando ao modelo capacidade de expansão em diversos cenários.

A capacidade do Step-Audio2mini é demonstrada de forma vívida em casos práticos. Ele pode identificar com precisão sons da natureza e dublagem excepcional, bem como pesquisar em tempo real informações atualizadas da indústria. Além disso, o Step-Audio2mini pode controlar a velocidade de fala, atendendo facilmente às necessidades de diálogo em diferentes cenários. Quando perguntado sobre dilemas filosóficos, o Step-Audio2mini consegue transformar questões abstratas em métodos simplificados, demonstrando uma forte capacidade de raciocínio lógico.

GitHub: https://github.com/stepfun-ai/Step-Audio2
Hugging Face: https://huggingface.co/stepfun-ai/Step-Audio-2-mini
ModelScope: https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini

Diário de IA: Novas regras de conteúdo de IA entram em vigor; Meituan lança modelo de linguagem de código aberto LongCat; Step apresenta o modelo de linguagem de áudio Step-Audio 2 mini

Bem-vindo ao programa 【Diário de IA】! Aqui é o seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os assuntos mais recentes no campo de IA, focando nos desenvolvedores, ajudando você a compreender as tendências tecnológicas e conhecer aplicações inovadoras de produtos de IA. Clique para saber mais sobre novos produtos de IA: https://app.aibase.com/zh1. Step apresentou o modelo de linguagem de áudio de ponta a ponta Step-Audio 2 mini. O Step Star lançou o modelo de linguagem de áudio de código aberto mais potente de ponta a ponta Step-Audio2mini, que possui desempenho multi

O modelo de linguagem de áudio aberta Step-Audio 2 mini é lançado! Escute claramente e fale naturalmente

Recentemente, a Jieque Star正式 lançou o novo modelo de linguagem de áudio de ponta a ponta aberto — Step-Audio2mini. Este modelo obteve excelentes resultados em vários benchmarks internacionais e alcançou resultados de SOTA (Tecnologia Mais Avançada), gerando grande destaque. O Step-Audio2mini não apenas possui fortes capacidades de compreensão de voz e geração de áudio, mas também, pela primeira vez, unificou a modelagem de raciocínio e geração de áudio, fornecendo soluções excepcionais para várias aplicações, como reconhecimento de voz, tradução entre idiomas e análise de emoção. Step-Audi

MiDashengLM-7B da Xiaomi: Desempenho em compreensão de áudio quebra o SOTA e velocidade de inferência aumenta 20 vezes

A Xiaomi lançou e abriu o código-fonte do modelo grande multimodal MiDashengLM-7B, alcançando uma grande conquista no campo da compreensão de áudio. O modelo adota um design de arquitetura de núcleo duplo, integrando capacidades especializadas em processamento de áudio e compreensão de linguagem. Obteve os melhores resultados em 22 conjuntos de avaliação. A latência do primeiro Token na inferência de amostra única é apenas 1/4 dos modelos avançados do setor, e a eficiência de throughput de dados é mais de 20 vezes maior. Foi realizado pela primeira vez uma compreensão unificada de voz, sons ambientais e música, suportando implantação offline em dispositivos finais. A Xiaomi abriu totalmente o código-fonte desse modelo, promovendo o desenvolvimento da tecnologia de inteligência artificial de áudio, para desenvolvedores.

A nova geração de modelo de base Step 3 da JumpStellar é oficialmente aberta ao público

A equipe JumpStellar anunciou que seu novo modelo de base Step 3 foi oficialmente aberto ao público. O Step 3 é um modelo projetado para empresas e desenvolvedores que buscam o equilíbrio ideal entre desempenho e custo, com o objetivo de criar o modelo mais adequado para a era da inferência. O endereço de acesso ao código-fonte do modelo inclui Github, Hugging Face e ModelScope, permitindo que os desenvolvedores baixem e experimentem gratuitamente. O Step 3 utiliza uma arquitetura MoE, com um total de 321 bilhões de parâmetros e 38 bilhões de parâmetros ativos.

A Step Star lança um novo modelo de base, o Step 3, com 321B parâmetros

A Step Star lançou uma nova geração do modelo Step3, que será aberto ao público em 31 de julho. Este modelo multimodal de raciocínio com 321B parâmetros se destaca pela inteligência e eficiência de raciocínio, suportando compreensão de conhecimento em múltiplas áreas e análise visual. A empresa formou uma aliança inovadora para a ecologia de chips juntamente com fabricantes de chips e estabeleceu uma parceria estratégica com o capital estatal de Xangai, promovendo a implementação prática dos modelos grandes. O Step3 atinge uma eficiência de raciocínio 300% superior aos concorrentes nos chip nacionais, e sua taxa de throughput aumentou mais de 70%, além de ter uma matriz de modelos 1+N que cobre múltiplas áreas. O modelo obteve resultados SOTA em vários rankings.

Jornal AI: Baidu lança a plataforma HuiXiang e MuseSteamer; modelo de personagem digital corporal com áudio da Alibaba, OmniAvatar

Bem-vindo ao programa 【Jornal AI】! Aqui é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias, apresentamos os conteúdos mais recentes do setor de IA, focando nos desenvolvedores e ajudando você a compreender as tendências tecnológicas e conhecer aplicações inovadoras de produtos de IA. Clique para saber mais sobre novos produtos de IA: https://top.aibase.com/1. Modelo de voz grande Open Source Step-Audio-AQAA: entenda áudio e gere fala natural diretamente. Step-Audio-AQAA é um modelo de voz grande de código aberto.

Tavus lança o modelo de sincronização labial SOTA Hummingbird-0: revolucionando a sincronização labial de amostra zero

Recentemente, a Tavus, empresa de pesquisa de vídeo com IA, lançou oficialmente seu mais recente modelo de sincronização labial de amostra zero, Hummingbird-0, considerado a tecnologia de sincronização labial mais avançada atualmente (State-of-the-Art, SOTA). O modelo já está disponível para visualização de pesquisa na plataforma Tavus, API e FAL, gerando grande interesse no campo da criação de conteúdo de IA. O avanço inovador da sincronização labial de amostra zero Hummingbird-0 é baseado no modelo principal Phoenix da Tavus—

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services

Modelo de grande linguagem de áudio ponto a ponto Step-Audio 2 mini

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Diário de IA: Novas regras de conteúdo de IA entram em vigor; Meituan lança modelo de linguagem de código aberto LongCat; Step apresenta o modelo de linguagem de áudio Step-Audio 2 mini

O modelo de linguagem de áudio aberta Step-Audio 2 mini é lançado! Escute claramente e fale naturalmente

MiDashengLM-7B da Xiaomi: Desempenho em compreensão de áudio quebra o SOTA e velocidade de inferência aumenta 20 vezes

A nova geração de modelo de base Step 3 da JumpStellar é oficialmente aberta ao público

A Step Star lança um novo modelo de base, o Step 3, com 321B parâmetros

Jornal AI: Baidu lança a plataforma HuiXiang e MuseSteamer; modelo de personagem digital corporal com áudio da Alibaba, OmniAvatar

Modelo de áudio de ponta a ponta de código aberto Step-Audio-AQAA: Entenda áudios e gere voz natural diretamente

KEEP inova na super resolução facial de vídeo! Novo modelo SOTA integrando filtro de Kalman com perfeita quebra de detalhes e consistência temporal!

Apenas 20B parâmetros! ByteDance lança o modelo multi-modal Seed1.5-VL, obtendo 38 resultados SOTA

Tavus lança o modelo de sincronização labial SOTA Hummingbird-0: revolucionando a sincronização labial de amostra zero

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

Modelo de grande linguagem de áudio ponto a ponto Step-Audio 2 mini

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Diário de IA: Novas regras de conteúdo de IA entram em vigor; Meituan lança modelo de linguagem de código aberto LongCat; Step apresenta o modelo de linguagem de áudio Step-Audio 2 mini

O modelo de linguagem de áudio aberta Step-Audio 2 mini é lançado! Escute claramente e fale naturalmente

MiDashengLM-7B da Xiaomi: Desempenho em compreensão de áudio quebra o SOTA e velocidade de inferência aumenta 20 vezes

A nova geração de modelo de base Step 3 da JumpStellar é oficialmente aberta ao público

​A Step Star lança um novo modelo de base, o Step 3, com 321B parâmetros

Jornal AI: Baidu lança a plataforma HuiXiang e MuseSteamer; modelo de personagem digital corporal com áudio da Alibaba, OmniAvatar

Modelo de áudio de ponta a ponta de código aberto Step-Audio-AQAA: Entenda áudios e gere voz natural diretamente

KEEP inova na super resolução facial de vídeo! Novo modelo SOTA integrando filtro de Kalman com perfeita quebra de detalhes e consistência temporal!

Apenas 20B parâmetros! ByteDance lança o modelo multi-modal Seed1.5-VL, obtendo 38 resultados SOTA

Tavus lança o modelo de sincronização labial SOTA Hummingbird-0: revolucionando a sincronização labial de amostra zero

GEO Services

A Step Star lança um novo modelo de base, o Step 3, com 321B parâmetros