Modo de Voz do GPT-4o Atualizado com Novas Funcionalidades: Função de Cantar Lançada, a Interação AI Entra em um Novo Patamar

AIbase基地

Publicado emNotícias e Informações de IA · 8 minutos de leitura · May 27, 2025

O modo de voz avançado do GPT-4o, da OpenAI, recebeu uma atualização significativa recentemente. Além de permitir interações de voz mais naturais, ele adicionou a impressionante funcionalidade de "cantar". Embora o desempenho vocal ainda pareça um pouco rudimentar no momento, essa inovação certamente abre novas possibilidades para as capacidades multimodais dos assistentes de IA. A AIbase compilou as informações mais recentes para analisar os últimos avanços e o potencial do modo de voz do GPT-4o.

Funcionalidade de cantar disponível: a IA também pode "tocar uma música"

As novas informações revelam que o modo de voz avançado do GPT-4o agora suporta a função de cantar. Os usuários podem pedir à IA para cantar músicas, até mesmo algumas protegidas por direitos autorais. Essa funcionalidade permite que o GPT-4o gere melodias, letras ou imite estilos de canto específicos, adicionando um toque de diversão à experiência de interação. Apesar de a "habilidade vocal" ainda precisar ser refinada, a AIbase observa que essa funcionalidade marca um novo experimento na área de geração de áudio do GPT-4o.

Multimodalidade aprimorada: mais natural e emocional

O modo de voz avançado do GPT-4o é conhecido por sua capacidade de processamento de voz end-to-end, o que significa que, em comparação com os modos de voz tradicionais (que dependem da conversão de voz para texto antes de gerar voz), o novo modelo lida diretamente com a entrada de áudio, reduzindo significativamente o tempo de resposta, que média apenas 320 milissegundos. Além disso, o GPT-4o pode capturar pistas não verbais como o ritmo e o tom da fala do usuário e responder com uma voz mais emocional. Ele também suporta interrupções durante a conversa, proporcionando uma experiência próxima à de um diálogo humano.

Pontos fortes funcionais: risos e choros ao comando

Além de cantar, o modo de voz avançado do GPT-4o também pode gerar risos, choro e outras expressões emocionais de acordo com o comando, enriquecendo ainda mais os cenários de interação. Por exemplo, os usuários podem pedir à IA para responder com um tom dramático, humorístico ou imitar a voz de personagens animados ou celebridades. Essa flexibilidade apresenta grande potencial no campo do entretenimento, educação e geração de conteúdo criativo.

Limitações atuais: a função de cantar ainda precisa de ajustes

Embora a função de cantar tenha sido adicionada, o desempenho vocal do GPT-4o ainda não alcançou o nível profissional. Durante os testes, a IA pareceu menos fluida ao lidar com melodias complexas ou notas agudas, e alguns usuários relataram que a qualidade de som era inferior à de outros modelos de voz de IA, como o Pi AI ou o Siri, possivelmente devido à menor taxa de amostragem, o que comprime ligeiramente a qualidade do som. A OpenAI afirmou que a inclusão dessa função tem como objetivo explorar os limites da geração de áudio, e que a performance será aprimorada continuamente no futuro.

Considerações sobre segurança e direitos autorais: inovação com limites

Para respeitar os direitos autorais, a OpenAI implementou mecanismos rigorosos de filtragem no output vocal do GPT-4o, restringindo a geração de conteúdo musical protegido por direitos autorais. No entanto, recentemente surgiram relatos de que alguns usuários conseguiram fazer com que a IA cantasse músicas protegidas por direitos autorais, gerando discussões sobre os limites desses direitos. Além disso, o GPT-4o apresenta taxas elevadas de rejeição em tarefas específicas, como avaliação automática de canções ou síntese de voz, possivelmente devido à preocupação em evitar a geração de conteúdo não autorizado ou pela falta de critérios objetivos.

O novo capítulo da IA de voz

A atualização do modo de voz avançado do GPT-4o, especialmente a inclusão da função de cantar, marca um avanço contínuo da OpenAI no campo das IA multimodais. Apesar de o desempenho vocal ainda necessitar de melhorias, sua baixa latência, interação natural e capacidade de expressão emocional já superam os assistentes de voz tradicionais, como o Siri e o Alexa. A AIbase acredita que, com a otimização adicional da qualidade do som e dos mecanismos de tratamento de direitos autorais, o GPT-4o poderá gerar uma nova onda de aplicações em áreas como educação, entretenimento e serviços ao cliente.

Conclusão

A funcionalidade de cantar do modo de voz avançado do GPT-4o introduziu mais diversão e possibilidades à interação com IA, embora ainda precise de ajustes técnicos. Desde a interação de baixa latência até a expressão emocional, o GPT-4o está redesenhando os limites das interações humanos-computador.

Atualização do Google NotebookLM: nova biblioteca de anotações públicas que aprimora a experiência de anotações inteligentes

O Google atualizou o aplicativo de anotações de IA NotebookLM, adicionando a funcionalidade de biblioteca de anotações públicas. Essa biblioteca integra conteúdos autoritários como o The Economist e anotações de especialistas, permitindo aos usuários fazer perguntas e obter resumos gerados por IA. Foram adicionadas novas funções como resumo de áudio e mapas mentais, com os primeiros recursos abrangendo guias sobre longevidade, dicas de viagem e outros conteúdos úteis. Atualmente, a plataforma já acumulou mais de 140 mil anotações de usuários, melhorando a eficiência da gestão do conhecimento por meio de tecnologia de IA e reforçando a ecologia de compartilhamento de informações.

O teclado de voz inteligente Willow recebe um financiamento inicial de 4,2 milhões de dólares e mira um novo futuro para o sistema operacional de voz

Startup de voz inteligente Willow levantou US$4,2 milhões para desenvolver sistema operacional de voz. Tecnologia TNT combina deep learning e NLP para interpretar comandos complexos. Equipe pivoteou de saúde após falha, focando em interação por voz. Estratégia: modular e open-source para competir com gigantes. Desafios incluem suporte multilíngue e privacidade.....

5 horas perdido na floresta ChatGPT salva! Caso real de navegação com IA!

Turistas canadenses perdidos na floresta de Mabou por 5 horas usaram ChatGPT para navegação em tempo real. Sem sinal e com GPS tradicional falhando, enviaram coordenadas a cada 5-10 minutos ao AI, que forneceu rotas precisas baseadas no terreno, levando-os em segurança. Caso destaca o potencial do AI em resgates outdoor.....

A nova receita de aprendizado por reforço da ByteDance Seed, o modelo POLARIS com 4B parâmetros, apresenta capacidades de raciocínio matemático próximas às de um modelo de 235B

Recentemente, a equipe Seed da ByteDance colaborou com a Universidade de Hong Kong e a Universidade Fudan para lançar uma nova abordagem de treinamento de aprendizado por reforço chamada POLARIS. Essa metodologia, com estratégias de escalonamento de aprendizado por reforço bem planejadas, conseguiu melhorar significativamente as capacidades de raciocínio matemático de modelos pequenos, tornando-as comparáveis às de grandes modelos. Os resultados experimentais mostram que o modelo de código aberto Qwen3-4B com 4 bilhões de parâmetros treinado com POLARIS obteve bons desempenhos nos testes matemáticos AIME25 e AIME24.

Kunlun Wanyi Skywork lança framework de cooperação hierárquica entre agentes inteligentes AgentOrchestra

Recentemente, a Kunlun Wanyi Skywork e a Universidade Nanyang uniram-se para apresentar oficialmente um inovador framework de cooperação hierárquica entre agentes inteligentes chamado AgentOrchestra, que é considerado como uma "orquestra de IA", marcando um importante passo na cooperação entre agentes no campo da inteligência artificial geral. Diante dos desafios de tarefas complexas do mundo real para modelos ou agentes únicos, o AgentOrchestra imita o modelo de cooperação de uma orquestra sinfônica, permitindo que agentes com habilidades especializadas trabalhem juntos para resolver problemas complexos. Tradicionalmente, a inteligência artificial geral

Willow Voice recebe 4,2 milhões de dólares em financiamento. A entrada de voz por IA redefini a experiência de trabalho eficiente

Willow Voice, plataforma de entrada de voz com IA, levantou US$4,2 milhões em rodada inicial. Ferramenta converte voz em texto em tempo real para macOS, com reconhecimento de termos técnicos e correção gramatical. Fundos serão usados para otimização e expansão. Disponível em acesso antecipado para macOS.....

Nova tendência de socialização entre vizinhos! O Nextdoor lança funcionalidades de recomendação por IA e alertas em tempo real, redefinindo a experiência de comunicação local

O aplicativo de socialização entre vizinhos Nextdoor lançou uma nova versão, com três novas funcionalidades: agregação de notícias locais (em parceria com 3.500 meios de comunicação locais), alertas de segurança em tempo real (previsões climáticas, tráfego e desastres) e Faves recomendados por IA (sugestões personalizadas de serviços locais geradas com base em 15 anos de dados entre vizinhos). A plataforma visa resolver o problema de informações incorretas existentes anteriormente, melhorando a qualidade e a atualidade do conteúdo para revitalizar o engajamento dos usuários. O CEO Tolia destacou que sua principal vantagem está na reputação digital entre vizinhos, um valor único que não pode ser replicado por outras plataformas.

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Modo de Voz do GPT-4o Atualizado com Novas Funcionalidades: Função de Cantar Lançada, a Interação AI Entra em um Novo Patamar

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas