O AudioGenie da Tencent surge com força! Gere efeitos sonoros de cinema em um clique, o Claude e o Gemini tremem!

Com o rápido desenvolvimento das tecnologias de inteligência artificial, o campo da geração de áudio recebeu um forte concorrente - o AudioGenie, desenvolvido pelo Tencent AI Lab. Esta ferramenta inovadora de geração de áudio multimodal apresenta efeitos de geração naturais e apropriados, uma forte capacidade de compreensão contextual e a característica de não necessitar de treinamento, redefinindo assim o cenário do mercado global de áudio com IA.

Entrada multimodal, saída audio completa

O AudioGenie suporta vários modos de entrada, como vídeo, texto e imagem, podendo gerar sons, voz, música e saídas de áudio misto. Seja para gerar trilhas sonoras imersivas para filmes, dublar personagens virtuais ou adicionar efeitos sonoros realistas para cenas de jogos, o AudioGenie pode lidar com isso facilmente. Os resultados de geração não apenas são naturais e fluidos, mas também se alinham altamente ao contexto da entrada, demonstrando uma excelente capacidade de compreensão semântica. Experimentos mostram que o AudioGenie atinge ou supera os níveis líderes da indústria em tarefas como geração de áudio multimodal a partir de vídeo e geração de áudio multimodal a partir de texto.

Sem treinamento, correção automática lidera a inovação tecnológica

Diferente dos modelos tradicionais de geração de áudio que exigem grandes conjuntos de dados de treinamento, o AudioGenie utiliza um framework inovador de agentes multimodais sem treinamento, realizando uma colaboração eficiente por meio de uma arquitetura de duas camadas (equipe de geração e equipe de supervisão). A equipe de geração escolhe dinamicamente o modelo mais adequado para a geração de áudio por meio de decomposição de tarefas granulares e mecanismo de mistura de especialistas adaptativos (MoE), garantindo a qualidade da saída. A equipe de supervisão realiza a verificação de consistência temporal e espacial e corrige automaticamente por meio de um ciclo de feedback, garantindo que o áudio gerado seja altamente confiável. Essa design elimina completamente a dependência de grandes conjuntos de dados pareados, reduzindo significativamente os custos de desenvolvimento e melhorando a eficiência da geração.

Teste de benchmark MA-Bench, estabelecendo novos padrões da indústria

Para avaliar de forma abrangente as capacidades de geração de áudio multimodal, o Tencent AI Lab lançou o MA-Bench, o primeiro conjunto de benchmark do mundo para tarefas de geração multimodal para áudio (MM2MA), contendo 198 vídeos com anotações de múltiplos tipos de áudio. Os resultados dos testes mostraram que o AudioGenie atingiu ou se aproximou dos níveis mais avançados (SOTA) em nove métricas e oito tarefas, especialmente destacando-se na qualidade do som, precisão, alinhamento de conteúdo e experiência estética. Pesquisas com usuários confirmaram ainda mais sua superioridade nas aplicações práticas, fornecendo apoio poderoso para cenários como desenvolvimento de jogos, produção cinematográfica e realidade virtual.

Impacto no mercado: desafiando o domínio de Claude e Gemini

O lançamento do AudioGenie não só oferece aos usuários uma experiência eficiente e conveniente de geração de áudio, mas também desafia o cenário atual do mercado. Com base em dados recentes, modelos de IA chineses como Qwen3, Kimi-K2 e GLM-4.5 estão crescendo rapidamente no mercado global, e a entrada do AudioGenie reforça ainda mais a competitividade das empresas de IA chinesas. Dados do OpenRouter mostram que o uso do Qwen3 cresceu 15,4%, enquanto o Claude e o Gemini tiveram quedas de 18,9% e 6,8%, respectivamente. Com suas capacidades multimodais e alto custo-benefício, o AudioGenie tem potencial para reduzir ainda mais a fatia de mercado das gigantes internacionais.

Perspectiva futura: iniciando uma nova era na criação de áudio

O lançamento do AudioGenie marca uma nova altura na tecnologia de geração de áudio com IA. Suas características de entrada multimodal, ausência de treinamento e capacidade de correção automática oferecem criadores uma flexibilidade e eficiência sem precedentes. Especialistas prevêem que o AudioGenie será amplamente aplicado em áreas como produção de mídia, desenvolvimento de jogos e ferramentas acessíveis, ajudando a tecnologia de IA chinesa a brilhar no cenário mundial. A AIbase continuará acompanhando os últimos desenvolvimentos deste segmento, trazendo informações da indústria diretamente para você.

Resumo

O AudioGenie da Tencent, com suas fortes capacidades de geração de áudio multimodal e seu framework inovador sem treinamento, está redefinindo os padrões da geração de áudio com IA. Diante da competição das gigantes internacionais, o AudioGenie demonstrou a força técnica da IA chinesa. A AIbase continuará monitorando os últimos avanços neste setor, revelando como a IA está mudando o futuro da criação!

Endereço do projeto: https://audiogenie.github.io/

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

O AudioGenie da Tencent surge com força! Gere efeitos sonoros de cinema em um clique, o Claude e o Gemini tremem!

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

20 mil dólares para um substituto de tarefas domésticas? O robô humanoide 1X Neo, financiado pela OpenAI, começa a pré-venda e entra nas casas norte-americanas no próximo ano

Hunyuan lança o primeiro podcast de IA interativo no país, os usuários podem fazer perguntas a qualquer momento

Amazon Cloud planeja investir mais 5 bilhões de dólares na Coreia do Sul para impulsionar a construção de centrais de dados de inteligência artificial

O pai do DayZ compara seu medo atual em relação à IA com o pânico anterior em relação ao Google e à Wikipedia

Diário de IA: Douyu lança sistema automático de dublagem em grupo; Adobe Firefly Image 5 atualizado significativamente; SoulX-Podcast, modelo de voz da Soul, é lançado

Qualcomm entra no mercado de data centers! Lança os chips AI200/AI250 com objetivo de enfrentar a NVIDIA, ações subiram mais de 20% em um dia

Magic Leap anuncia parceria reatada com o Google para desenvolver protótipos de óculos AR da próxima geração

Tsinghua e Kuaishou lançam um novo modelo de difusão SVG, eficiência de treinamento aumenta 6200%

NVIDIA lança design revolucionário para centro de dados de IA, impulsionando cálculo de alto desempenho

Vice-presidente do Douyin, Li Liang, diz que a IA torna a difamação mais fácil e a plataforma está usando agentes inteligentes para combater falsas notícias