Lançamento da versão Gemini2.5 com recurso de áudio nativo, tornando os diálogos de IA mais naturais

Em uma atualização recente no desenvolvimento, o Google lançou a versão Gemini2.5, marcando um avanço significativo na tecnologia de áudio para conversação e geração de IA. O Gemini2.5 é um sistema de IA multimodal capaz de entender e gerar nativamente texto, imagem, áudio, vídeo e código, melhorando a experiência de interação do usuário com a IA.

A funcionalidade de conversa em áudio em tempo real do Gemini2.5 torna a comunicação entre humanos e máquinas mais natural. O diálogo humano envolve entonação, sotaque e sons não linguísticos (como risos), que podem ser reproduzidos pelo sistema de geração de áudio do Gemini. Sua baixa latência garante uma troca fluida e natural, permitindo que os usuários ajustem o estilo da conversa por meio de linguagem natural, como escolher diferentes sotaques e tons, ou até mesmo falar em tom de sussurro.

Conversa em Áudio em Tempo Real

O diálogo humano é rico e detalhado, e o significado expresso não depende apenas das palavras ditas, mas também da entonação, sotaque e sons não linguísticos, como risos. O Gemini2.5 busca realizar uma comunicação eficiente e em tempo real através do áudio, oferecendo as seguintes funcionalidades de conversa em áudio:

Conversa Natural: Oferece interação de voz de alta qualidade, demonstrando expressividade e ritmo adequados, garantindo diálogos fluídos e naturais, com latência extremamente baixa.
Controle de Estilo: Os usuários podem personalizar o tom, sotaque e expressão emocional da conversa via linguagem natural, incluindo até mesmo conversas em sussurro.
Integração de Ferramentas: Durante a conversa, o Gemini2.5 pode chamar funções e ferramentas para obter informações em tempo real de fontes como o Google Search, aumentando a utilidade da conversa.
Percepção do Contexto da Conversa: O sistema identifica e ignora ruído de fundo e diálogos irrelevantes, garantindo que responda no momento certo.
Compreensão de Áudio e Vídeo: Suporta fluxos de áudio e vídeo em tempo real, permitindo discutir conteúdo de vídeos ou informações compartilhadas na tela.
Suporte Multilíngue: Suporta mais de 24 idiomas, permitindo alternar fluentemente entre idiomas em uma mesma conversa.
Diálogo Emocional: Responde de acordo com o tom do usuário, compreendendo diferenças emocionais em diferentes formas de expressão.
Diálogo com Pensamento Avançado: Com base em capacidades de推理, melhora a coerência e inteligência das conversas, especialmente em questões complexas.

Tecnologia de Conversão de Texto para Voz Controlável

A tecnologia de conversão de texto para voz (TTS) do Gemini2.5 trouxe uma nova quebra de barreira: os usuários não apenas podem gerar saída de voz natural, mas também têm controle inédito sobre o áudio gerado. É possível criar conteúdo desde frases curtas até narrativas longas, controlando com precisão o estilo, entonação, emoção e apresentação, tudo ajustável via sugestões em linguagem natural.

Performance Dinâmica: Pode ler textos de forma vívida, adequada para poesia, noticiário e contação de histórias, com suporte a emoções específicas e sotaques.
Controle de Velocidade e Pronúncia: Os usuários podem ajustar a velocidade da voz e garantir a pronúncia correta de palavras específicas.
Geração de Diálogos entre Múltiplos Narradores: Pode gerar áudio de diálogos entre duas pessoas com base em entradas de texto, tornando o conteúdo mais envolvente.
Geração de Áudio em Múltiplos Idiomas: Facilita a criação de conteúdo de áudio em múltiplos idiomas, suportando mais de 24 línguas.

No processo de desenvolvimento do Gemini2.5, o Google avaliou cuidadosamente os riscos potenciais e implementou estratégias de mitigação apropriadas. Toda a saída de áudio inclui a tecnologia de marca d'água chamada SynthID, garantindo transparência e identificabilidade dos áudios gerados pela IA.

O Gemini2.5 oferece aos desenvolvedores uma série de funcionalidades nativas de áudio, permitindo que eles criem aplicativos mais interativos via Google AI Studio ou APIs Gemini do Vertex AI. Desenvolvedores podem testar a conversa em áudio nativa do Gemini2.5 Flash Preview no painel de fluxo do Google AI Studio ou optar por geração controlada de texto para voz, impulsionando inovações em anúncios, histórias, podcasts e jogos de videogame.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Services

AI Model Compatibility Checker

AI Deployment Calculator

Lançamento da versão Gemini2.5 com recurso de áudio nativo, tornando os diálogos de IA mais naturais

AIbase基地

Conversa em Áudio em Tempo Real

Tecnologia de Conversão de Texto para Voz Controlável

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

20 mil dólares para um substituto de tarefas domésticas? O robô humanoide 1X Neo, financiado pela OpenAI, começa a pré-venda e entra nas casas norte-americanas no próximo ano

Hunyuan lança o primeiro podcast de IA interativo no país, os usuários podem fazer perguntas a qualquer momento

Amazon Cloud planeja investir mais 5 bilhões de dólares na Coreia do Sul para impulsionar a construção de centrais de dados de inteligência artificial

O pai do DayZ compara seu medo atual em relação à IA com o pânico anterior em relação ao Google e à Wikipedia

Diário de IA: Douyu lança sistema automático de dublagem em grupo; Adobe Firefly Image 5 atualizado significativamente; SoulX-Podcast, modelo de voz da Soul, é lançado

Qualcomm entra no mercado de data centers! Lança os chips AI200/AI250 com objetivo de enfrentar a NVIDIA, ações subiram mais de 20% em um dia

Magic Leap anuncia parceria reatada com o Google para desenvolver protótipos de óculos AR da próxima geração

Tsinghua e Kuaishou lançam um novo modelo de difusão SVG, eficiência de treinamento aumenta 6200%

NVIDIA lança design revolucionário para centro de dados de IA, impulsionando cálculo de alto desempenho

Vice-presidente do Douyin, Li Liang, diz que a IA torna a difamação mais fácil e a plataforma está usando agentes inteligentes para combater falsas notícias

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Lançamento da versão Gemini2.5 com recurso de áudio nativo, tornando os diálogos de IA mais naturais

AIbase基地

Conversa em Áudio em Tempo Real

Tecnologia de Conversão de Texto para Voz Controlável

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

20 mil dólares para um substituto de tarefas domésticas? O robô humanoide 1X Neo, financiado pela OpenAI, começa a pré-venda e entra nas casas norte-americanas no próximo ano

Hunyuan lança o primeiro podcast de IA interativo no país, os usuários podem fazer perguntas a qualquer momento

Amazon Cloud planeja investir mais 5 bilhões de dólares na Coreia do Sul para impulsionar a construção de centrais de dados de inteligência artificial

O pai do DayZ compara seu medo atual em relação à IA com o pânico anterior em relação ao Google e à Wikipedia

Diário de IA: Douyu lança sistema automático de dublagem em grupo; Adobe Firefly Image 5 atualizado significativamente; SoulX-Podcast, modelo de voz da Soul, é lançado

Qualcomm entra no mercado de data centers! Lança os chips AI200/AI250 com objetivo de enfrentar a NVIDIA, ações subiram mais de 20% em um dia

Magic Leap anuncia parceria reatada com o Google para desenvolver protótipos de óculos AR da próxima geração

Tsinghua e Kuaishou lançam um novo modelo de difusão SVG, eficiência de treinamento aumenta 6200%

NVIDIA lança design revolucionário para centro de dados de IA, impulsionando cálculo de alto desempenho

Vice-presidente do Douyin, Li Liang, diz que a IA torna a difamação mais fácil e a plataforma está usando agentes inteligentes para combater falsas notícias

GEO Services