A MiniMax anunciou hoje o lançamento da nova geração de modelo de geração de voz, Speech2.5, que novamente estabelece um novo padrão no campo global de tecnologia de voz, reforçando ainda mais sua posição como o modelo de voz mais poderoso do mundo. O Speech2.5 fez avanços significativos em expressividade multilíngue, reprodução de tons de voz e cobertura de idiomas.
Em comparação com o Speech02 lançado em maio deste ano, o Speech2.5 alcançou uma grande evolução na expressividade multilíngue, mantendo especialmente a melhor performance mundial em chinês, enquanto a performance em inglês e outros idiomas também foi amplamente aprimorada. O modelo supera o anterior em taxas de erro de caractere, similaridade e naturalidade rítmica, permitindo aos usuários alternar facilmente entre 40 idiomas. Seja em reuniões corporativas, conversas cotidianas ou podcasts em inglês, oferece uma experiência de voz mais natural e fluida, eliminando completamente a sensação mecânica comum nos sintetizadores de voz anteriores.
Na reprodução de tons de voz, o Speech2.5 atingiu a precisão de nível de teto da indústria. Não apenas é capaz de reproduzir sotaques entre idiomas, mas também preserva as características dos sotaques regionais dentro do mesmo idioma, e até pode reproduzir com precisão vozes de idades específicas. Independentemente das situações extremas ou da troca entre idiomas, o Speech2.5 mantém detalhes altamente realistas nos tons de voz. Por exemplo, ao usar a pronúncia clássica da rainha da Inglaterra para apresentar o Speech2.5, o modelo consegue reproduzir perfeitamente suas pausas, ritmo e tratamento da pronúncia únicos, e mesmo ao alternar entre italiano e inglês, mantém as características do sotaque.
Além disso, a cobertura multilíngue do Speech2.5 foi expandida significativamente em relação às versões anteriores, chegando a 40 idiomas. Foram adicionados vários idiomas, incluindo búlgaro, dinamarquês, hebraico, malaio, persa, eslovaco, sueco, croata, filipino, húngaro, norueguês, esloveno, catalão, ninosk, tamil e afrikaans. Essa expansão torna o Speech2.5 mais vantajoso na criação de conteúdo global, seja para comércio eletrônico internacional, atendimento ao cliente internacional ou marketing localizado, os usuários podem gerar rapidamente conteúdo de voz de alta qualidade em múltiplos idiomas com um único toque.
O lançamento do Speech2.5 traz grandes conveniências e oportunidades de inovação para diversos setores. Para clientes corporativos, o custo de atendimento multilíngue e dublagem de anúncios internacionais será drasticamente reduzido. Antes, a dublagem de vídeos promocionais globais exigia altos custos e muito tempo, agora basta 10 minutos para gerá-los. Para criadores, a função de reprodução realista de tons de voz pessoais permite que eles produzam facilmente vídeos curtos virais globais, realizando expressões criativas como "uma pessoa falando 40 idiomas". Os educadores também se beneficiam, pois o período de produção de materiais didáticos em línguas minoritárias foi reduzido de semanas para 10 minutos, e a personalização de materiais didáticos de dialetos transnacionais tornou-se muito mais fácil.
O Speech2.5 representa uma nova atualização com base no Speech02, mantendo não apenas o melhor custo-benefício do mundo, mas também melhorando ainda mais seu desempenho. Atualmente, o modelo de voz MiniMax Speech é amplamente adotado em todo o mundo, incluindo plataformas Agent no exterior, como Vapi e Pipecat, bem como aplicações de IA de topo, como Hedra, Icon e Syllaby. Plataformas e produtos de topo nacionais, como Gaochu Education, Ximalaya, NetEase e Rokid Glasses, também integraram o MiniMax Speech.
Plataforma Aberta MiniMax:
minimaxi.com/platform_overview
MiniMax Audio:
minimaxi.com/audio