Em uma atualização recente no desenvolvimento, o Google lançou a versão Gemini2.5, marcando um avanço significativo na tecnologia de áudio para conversação e geração de IA. O Gemini2.5 é um sistema de IA multimodal capaz de entender e gerar nativamente texto, imagem, áudio, vídeo e código, melhorando a experiência de interação do usuário com a IA.

imagem.png

A funcionalidade de conversa em áudio em tempo real do Gemini2.5 torna a comunicação entre humanos e máquinas mais natural. O diálogo humano envolve entonação, sotaque e sons não linguísticos (como risos), que podem ser reproduzidos pelo sistema de geração de áudio do Gemini. Sua baixa latência garante uma troca fluida e natural, permitindo que os usuários ajustem o estilo da conversa por meio de linguagem natural, como escolher diferentes sotaques e tons, ou até mesmo falar em tom de sussurro.

Conversa em Áudio em Tempo Real

O diálogo humano é rico e detalhado, e o significado expresso não depende apenas das palavras ditas, mas também da entonação, sotaque e sons não linguísticos, como risos. O Gemini2.5 busca realizar uma comunicação eficiente e em tempo real através do áudio, oferecendo as seguintes funcionalidades de conversa em áudio:

  • Conversa Natural: Oferece interação de voz de alta qualidade, demonstrando expressividade e ritmo adequados, garantindo diálogos fluídos e naturais, com latência extremamente baixa.
  • Controle de Estilo: Os usuários podem personalizar o tom, sotaque e expressão emocional da conversa via linguagem natural, incluindo até mesmo conversas em sussurro.
  • Integração de Ferramentas: Durante a conversa, o Gemini2.5 pode chamar funções e ferramentas para obter informações em tempo real de fontes como o Google Search, aumentando a utilidade da conversa.
  • Percepção do Contexto da Conversa: O sistema identifica e ignora ruído de fundo e diálogos irrelevantes, garantindo que responda no momento certo.
  • Compreensão de Áudio e Vídeo: Suporta fluxos de áudio e vídeo em tempo real, permitindo discutir conteúdo de vídeos ou informações compartilhadas na tela.
  • Suporte Multilíngue: Suporta mais de 24 idiomas, permitindo alternar fluentemente entre idiomas em uma mesma conversa.
  • Diálogo Emocional: Responde de acordo com o tom do usuário, compreendendo diferenças emocionais em diferentes formas de expressão.
  • Diálogo com Pensamento Avançado: Com base em capacidades de推理, melhora a coerência e inteligência das conversas, especialmente em questões complexas.

Tecnologia de Conversão de Texto para Voz Controlável

A tecnologia de conversão de texto para voz (TTS) do Gemini2.5 trouxe uma nova quebra de barreira: os usuários não apenas podem gerar saída de voz natural, mas também têm controle inédito sobre o áudio gerado. É possível criar conteúdo desde frases curtas até narrativas longas, controlando com precisão o estilo, entonação, emoção e apresentação, tudo ajustável via sugestões em linguagem natural.

  • Performance Dinâmica: Pode ler textos de forma vívida, adequada para poesia, noticiário e contação de histórias, com suporte a emoções específicas e sotaques.
  • Controle de Velocidade e Pronúncia: Os usuários podem ajustar a velocidade da voz e garantir a pronúncia correta de palavras específicas.
  • Geração de Diálogos entre Múltiplos Narradores: Pode gerar áudio de diálogos entre duas pessoas com base em entradas de texto, tornando o conteúdo mais envolvente.
  • Geração de Áudio em Múltiplos Idiomas: Facilita a criação de conteúdo de áudio em múltiplos idiomas, suportando mais de 24 línguas.

No processo de desenvolvimento do Gemini2.5, o Google avaliou cuidadosamente os riscos potenciais e implementou estratégias de mitigação apropriadas. Toda a saída de áudio inclui a tecnologia de marca d'água chamada SynthID, garantindo transparência e identificabilidade dos áudios gerados pela IA.

O Gemini2.5 oferece aos desenvolvedores uma série de funcionalidades nativas de áudio, permitindo que eles criem aplicativos mais interativos via Google AI Studio ou APIs Gemini do Vertex AI. Desenvolvedores podem testar a conversa em áudio nativa do Gemini2.5 Flash Preview no painel de fluxo do Google AI Studio ou optar por geração controlada de texto para voz, impulsionando inovações em anúncios, histórias, podcasts e jogos de videogame.