A mais forte IA de voz do planeta está aqui! Eleventh v3 Alpha é lançado com surpreendente capacidade de falar e atuar

AIbase基地

Publicado emNotícias e Informações de IA · 8 minutos de leitura · Jun 6, 2025

Com o rápido desenvolvimento da tecnologia de inteligência artificial, o campo de conversão de texto em voz (TTS) atingiu um novo marco. Em 5 de junho de 2025, a ElevenLabs lançou oficialmente seu mais recente modelo de conversão de texto em voz, o Eleven v3 (versão Alpha), considerado o "modelo TTS mais forte do mundo". Este modelo não apenas converte texto em voz natural e fluente, mas também pode simular mudanças de tom e expressões não verbais durante diálogos reais por meio de controle preciso de emoções e suporte a múltiplos idiomas, proporcionando aos criadores e desenvolvedores uma experiência inédita na geração de voz. Abaixo está a interpretação exclusiva da AIbase sobre a versão Alpha do Eleven v3.

Função revolucionária: não apenas fala, mas também 'atua'

O maior destaque do Eleven v3 versão Alpha é sua capacidade poderosa de expressar emoções. Com a introdução de etiquetas de áudio como [risos], [sussurros], [triste] e [animado], os usuários podem controlar com precisão a emoção, velocidade da fala e até adicionar efeitos sonoros como [tiro] ou [explosão]. Essas etiquetas tornam a voz muito mais que simples leitura, permitindo simular mudanças de emoção e expressões não verbais em cenários reais, o que pode ser chamado de "performance sintética". Por exemplo, ao adicionar a etiqueta [risos] em uma conversa, o modelo gerará risos naturais, em vez de substituir por "haha", aumentando significativamente a autenticidade e imersão da voz.

Além disso, o Eleven v3 suporta mais de 70 idiomas e pode realizar diálogos naturais entre múltiplos personagens. Seja alternando idiomas, lidando com pausas ou simulando pensamentos e interrupções em diálogos, o v3 demonstra uma fluidez próxima à dos humanos. Essa capacidade o torna uma ferramenta com amplas perspectivas de aplicação em criação de conteúdo multilíngue, dublagem de filmes e assistentes virtuais.

Atualização tecnológica: compreensão de texto e simulação de diálogo mais fortes

Comparado às versões anteriores, o Eleven v3 versão Alpha obteve avanços significativos na compreensão de texto e na geração de diálogos. Graças ao seu avançado modelo de IA, o v3 consegue capturar melhor o sentido e o contexto do texto, gerando expressões vocais coerentes com o contexto. Seja para diálogos complexos emocionais ou para rimas cantadas que exigem ritmo, o v3 apresenta tons e ritmos naturais, superando muito as saídas monotônicas dos modelos TTS tradicionais.

Além disso, o v3 introduziu a função automática de etiquetagem. Basta clicar no botão "Melhorar" e o modelo adicionará automaticamente etiquetas de emoção com base no conteúdo do texto, simplificando ainda mais o fluxo de trabalho. Esse design inteligente permite que mesmo usuários sem experiência em edição de áudio profissional gerem facilmente conteúdo de voz de alta qualidade.

Aplicações multi-cenário: da criação de conteúdo ao assistente virtual

O lançamento do Eleven v3 versão Alpha não só trouxe boas notícias para os criadores de conteúdo, mas também ofereceu um forte suporte para aplicações empresariais. Por exemplo, na produção cinematográfica, o v3 pode gerar vozes personalizadas para os personagens; na área educacional, ele pode transformar materiais didáticos em conteúdos auditivos multilíngues; no atendimento ao cliente, a funcionalidade de IA de diálogo do v3 pode criar uma avatar digital disponível 24 horas por dia, respondendo fluentemente às necessidades dos clientes.

Merece destaque que a ElevenLabs anunciou em seu comunicado oficial que a versão Alpha estará com 80% de desconto durante o mês de junho, incentivando os usuários a experimentarem essa tecnologia inovadora. Essa iniciativa certamente promoverá ainda mais sua popularidade global.

Influência no setor: redifinindo o futuro da voz sintética

A ElevenLabs consolidou-se nos últimos anos como líder no campo de síntese e clonagem de voz por IA. O lançamento do v3 versão Alpha fortaleceu ainda mais sua posição no mercado. Ao mesmo tempo, surgiram concorrentes como o modelo Dia da Nari Labs, entre outros, mostrando a intensa competição no setor de TTS. No entanto, o Eleven v3 mantém liderança em desempenho e experiência do usuário graças ao seu suporte a múltiplos idiomas, expressão emocional e operação conveniente.

A AIbase acredita que o lançamento do Eleven v3 versão Alpha marca um novo patamar para a tecnologia de voz sintética. Não apenas melhorou a qualidade da síntese de voz, mas também quebrou limitações tradicionais com etiquetas emocionais e suporte multilíngue, proporcionando possibilidades ilimitadas para criadores globais e desenvolvedores. No futuro, com mais recursos sendo adicionados, a ElevenLabs continuará a liderar a inovação na tecnologia de áudio de IA.

O lançamento do Eleven v3 versão Alpha certamente injetou nova energia ao campo de voz sintética. Do suporte multilíngue à "performance emocional", este modelo está redesenhando as possibilidades da conversão de texto em voz. A AIbase continuará a acompanhar os avanços mais recentes da ElevenLabs e trará mais notícias sobre tecnologias de ponta para nossos leitores. Experimente o Eleven v3 e sinta o charme da voz sintética!

iFlytek lança o painel de código Spark, geração de site interativo com uma frase

A plataforma de abertura iFlytek anunciou a implementação de uma nova funcionalidade chamada 'painel de código Spark', marcando o início da nova era do 'desenvolvimento falado'. Esta funcionalidade pode rapidamente gerar um site interativo com comandos de voz simples, esboços, links ou uma descrição textual, aumentando significativamente a eficiência do desenvolvimento, especialmente para usuários que não possuem habilidades profissionais de programação. O lançamento do painel de código Spark traz grande conveniência para profissionais sem fundo técnico, como produtores, designers e operadores. Como exemplo, o produtor Xiao Ma usou o painel de código Spark e conseguiu apenas com uma

Relatos indicam que a Baidu lançará um novo modelo de raciocínio de IA até o final de agosto, o Weni 5.0 será lançado nos próximos meses

Segundo relatos, a Baidu está acelerando seu plano de atualização do modelo Weni. Fontes informaram que a Baidu pode lançar a versão mais recente do modelo Weni até o final de agosto, e este modelo está atualmente em fase de testes intensos. Essa nova versão deve superar a versão completa do o3 da OpenAI em habilidades-chave como raciocínio lógico e cálculos complexos. Ao mesmo tempo, a Baidu planeja lançar uma nova versão do modelo base Weni nos próximos meses. Segundo fontes internas, o novo modelo provavelmente será apresentado oficialmente na conferência World of Baidu. Este plano demonstra o empenho da Baidu em inteligência artificial.

Microsoft lança o framework de aprendizado reforçado Agent Lightning, alegando que pode treinar qualquer sistema de agente de IA

O Microsoft Research lançou o framework de aprendizado reforçado Agent Lightning, adotando de forma inovadora um design desacoplado para resolver os desafios do treinamento de agentes de IA. O framework abstrai o processo de execução do agente como uma interface unificada, suportando o treinamento padronizado de agentes de IA com diferentes arquiteturas. O algoritmo LightningRL desenvolvido em paralelo pode distribuir eficientemente as recompensas das tarefas. Testes mostram que esse framework se destaca nas tarefas de conversão de texto para SQL e perguntas e respostas RAG, suportando a colaboração de múltiplos agentes e chamadas complexas de ferramentas. A arquitetura separada de treinamento e agente fornece uma base para o treinamento de agentes de IA.

Jornal de IA: Alibaba lança novo modelo Qwen3-4B; Xiaohongshu lança modelo de código aberto dots.vlm1; Modelo de geração de voz MiniMax Speech 2.5 está disponível

Resumo de IA: Alibaba lança Qwen3-4B para celular, desempenho próximo a modelos 30B; Xiaohongshu abre dots.vlm1 multimodal; MiniMax lança Speech2.5 em 40 idiomas; Midjourney apresenta modo HD profissional; Cursor1.4 aprimora automação de código; Google AI aumenta buscas sem cliques; MiniCPM-V4.0 atua como GPT-4V em celulares; AMD/Qualcomm suportam gpt-oss; Tencent abre WeKnora; vazamentos do GPT-5; FlowSpeech inova TTS.....

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

A mais forte IA de voz do planeta está aqui! Eleventh v3 Alpha é lançado com surpreendente capacidade de falar e atuar

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

A arquitetura MUSA da Mozu está fortemente compatível com llama.cpp, impulsionando uma nova era de raciocínio de IA!

iFlytek lança o painel de código Spark, geração de site interativo com uma frase

Relatos indicam que a Baidu lançará um novo modelo de raciocínio de IA até o final de agosto, o Weni 5.0 será lançado nos próximos meses

Microsoft lança o framework de aprendizado reforçado Agent Lightning, alegando que pode treinar qualquer sistema de agente de IA

EUA iniciam o plano ATOM de emergência para lidar com o surgimento do AI de código aberto chinês

Jornal de IA: Alibaba lança novo modelo Qwen3-4B; Xiaohongshu lança modelo de código aberto dots.vlm1; Modelo de geração de voz MiniMax Speech 2.5 está disponível

FlowSpeech: O primeiro TTS de conversão de linguagem escrita para falada do mundo

Criador de Imagens do Microsoft Bing lança modelo de geração de imagens GPT-4o gratuitamente

Tencent WeKnora Open Source: seus problemas de gestão de documentos, a IA os resolve

Xiaohongshu lança modelo de linguagem multimodal de código aberto dots.vlm1, liderando a indústria com o codificador visual NaViT