O modo de voz avançado do GPT-4o, da OpenAI, recebeu uma atualização significativa recentemente. Além de permitir interações de voz mais naturais, ele adicionou a impressionante funcionalidade de "cantar". Embora o desempenho vocal ainda pareça um pouco rudimentar no momento, essa inovação certamente abre novas possibilidades para as capacidades multimodais dos assistentes de IA. A AIbase compilou as informações mais recentes para analisar os últimos avanços e o potencial do modo de voz do GPT-4o.

image.png

Funcionalidade de cantar disponível: a IA também pode "tocar uma música"

As novas informações revelam que o modo de voz avançado do GPT-4o agora suporta a função de cantar. Os usuários podem pedir à IA para cantar músicas, até mesmo algumas protegidas por direitos autorais. Essa funcionalidade permite que o GPT-4o gere melodias, letras ou imite estilos de canto específicos, adicionando um toque de diversão à experiência de interação. Apesar de a "habilidade vocal" ainda precisar ser refinada, a AIbase observa que essa funcionalidade marca um novo experimento na área de geração de áudio do GPT-4o.

Multimodalidade aprimorada: mais natural e emocional

O modo de voz avançado do GPT-4o é conhecido por sua capacidade de processamento de voz end-to-end, o que significa que, em comparação com os modos de voz tradicionais (que dependem da conversão de voz para texto antes de gerar voz), o novo modelo lida diretamente com a entrada de áudio, reduzindo significativamente o tempo de resposta, que média apenas 320 milissegundos. Além disso, o GPT-4o pode capturar pistas não verbais como o ritmo e o tom da fala do usuário e responder com uma voz mais emocional. Ele também suporta interrupções durante a conversa, proporcionando uma experiência próxima à de um diálogo humano.

Pontos fortes funcionais: risos e choros ao comando

Além de cantar, o modo de voz avançado do GPT-4o também pode gerar risos, choro e outras expressões emocionais de acordo com o comando, enriquecendo ainda mais os cenários de interação. Por exemplo, os usuários podem pedir à IA para responder com um tom dramático, humorístico ou imitar a voz de personagens animados ou celebridades. Essa flexibilidade apresenta grande potencial no campo do entretenimento, educação e geração de conteúdo criativo.

Limitações atuais: a função de cantar ainda precisa de ajustes

Embora a função de cantar tenha sido adicionada, o desempenho vocal do GPT-4o ainda não alcançou o nível profissional. Durante os testes, a IA pareceu menos fluida ao lidar com melodias complexas ou notas agudas, e alguns usuários relataram que a qualidade de som era inferior à de outros modelos de voz de IA, como o Pi AI ou o Siri, possivelmente devido à menor taxa de amostragem, o que comprime ligeiramente a qualidade do som. A OpenAI afirmou que a inclusão dessa função tem como objetivo explorar os limites da geração de áudio, e que a performance será aprimorada continuamente no futuro.

Considerações sobre segurança e direitos autorais: inovação com limites

Para respeitar os direitos autorais, a OpenAI implementou mecanismos rigorosos de filtragem no output vocal do GPT-4o, restringindo a geração de conteúdo musical protegido por direitos autorais. No entanto, recentemente surgiram relatos de que alguns usuários conseguiram fazer com que a IA cantasse músicas protegidas por direitos autorais, gerando discussões sobre os limites desses direitos. Além disso, o GPT-4o apresenta taxas elevadas de rejeição em tarefas específicas, como avaliação automática de canções ou síntese de voz, possivelmente devido à preocupação em evitar a geração de conteúdo não autorizado ou pela falta de critérios objetivos.

O novo capítulo da IA de voz

A atualização do modo de voz avançado do GPT-4o, especialmente a inclusão da função de cantar, marca um avanço contínuo da OpenAI no campo das IA multimodais. Apesar de o desempenho vocal ainda necessitar de melhorias, sua baixa latência, interação natural e capacidade de expressão emocional já superam os assistentes de voz tradicionais, como o Siri e o Alexa. A AIbase acredita que, com a otimização adicional da qualidade do som e dos mecanismos de tratamento de direitos autorais, o GPT-4o poderá gerar uma nova onda de aplicações em áreas como educação, entretenimento e serviços ao cliente.

Conclusão

A funcionalidade de cantar do modo de voz avançado do GPT-4o introduziu mais diversão e possibilidades à interação com IA, embora ainda precise de ajustes técnicos. Desde a interação de baixa latência até a expressão emocional, o GPT-4o está redesenhando os limites das interações humanos-computador.