OpenAI lança novo modelo de voz GPT-Realtime, projetado para Agentes de IA de voz

AIbase基地

Publicado emNotícias e Informações de IA · 5 minutos de leitura · Aug 29, 2025

A OpenAI realizou uma transmissão técnica às 1h da manhã e lançou oficialmente seu novo modelo de voz — GPT-Realtime. Este modelo multimodal foi desenvolvido especialmente para agentes de inteligência artificial de voz, com o objetivo de gerar vozes mais naturais e fluidas, capazes de imitar as diversas tonalidades, emoções e velocidades de fala humanas. As aplicações do GPT-Realtime são amplas, abrangendo setores como atendimento ao cliente, educação, finanças e saúde, oferecendo suporte poderoso para a criação de assistentes de voz inteligentes.

O GPT-Realtime introduziu duas novas estilos de voz únicos — Marin e Cedar — e atualizou totalmente os oito estilos anteriores. Diferente dos modelos tradicionais de voz, o GPT-Realtime não apenas gera voz, mas também possui capacidade de inteligência, raciocínio e compreensão. Por exemplo, o modelo pode capturar com precisão sinais não verbais como risadas e alternar fluentemente entre idiomas em conversas, adaptando-se às diferentes necessidades de cenários.

Em termos de avaliação, a taxa de detecção de sequências alfanuméricas do GPT-Realtime melhorou significativamente em diversos ambientes linguísticos, com uma taxa de acerto de 82,8% nas avaliações de capacidade de raciocínio, tornando-o um dos melhores modelos de voz inteligente disponíveis atualmente. A melhoria na capacidade de seguir instruções também é um destaque importante deste modelo. Os desenvolvedores podem personalizar instruções para melhorar a resposta do modelo. Na avaliação de benchmark de áudio MultiChallenge, a taxa de acerto no seguimento de instruções do GPT-Realtime subiu de 20,6% para 30,5%.

Além da capacidade de geração de voz, o GPT-Realtime também suporta entrada de imagem. Os desenvolvedores podem combinar imagens com áudio ou texto em sessões, permitindo que o modelo converse com base no que o usuário vê, oferecendo uma experiência de interação mais personalizada. Além disso, o novo recurso do Realtime API permite que os desenvolvedores conectem-se facilmente a servidores remotos MCP, simplificando o processo de integração e aumentando a eficiência do desenvolvimento.

No aspecto de segurança e privacidade, o Realtime API inclui medidas de proteção em várias camadas, monitorando em tempo real o conteúdo das conversas para prevenir abusos. Além disso, os desenvolvedores podem adicionar proteção de segurança personalizada conforme necessário, garantindo a segurança do ambiente de uso.

A partir do momento do lançamento, todos os desenvolvedores poderão usar o novo Realtime API e o modelo GPT-Realtime, com o preço dos tokens de entrada de áudio reduzido em 20%. Além disso, os desenvolvedores podem configurar livremente os limites de tokens inteligentes para reduzir os custos de conversas longas.

Destaque:
🌟 O GPT-Realtime é o novo modelo multimodal de voz lançado pela OpenAI, adequado para vários setores, como atendimento ao cliente e educação.
📈 A capacidade de raciocínio e a taxa de acerto no seguimento de instruções deste modelo melhoraram significativamente, oferecendo suporte mais forte aos desenvolvedores.
🔒 O Realtime API inclui medidas de proteção de segurança, garantindo a segurança e a privacidade das interações dos usuários.

A funcionalidade de tradução de documentos da NetEase Youdao está agora disponível gratuitamente, utilizando o modelo educacional 'Zi Yue' para melhorar a eficiência da comunicação multilíngue

Em 28 de agosto de 2025, a NetEase Youdao anunciou que sua poderosa funcionalidade de tradução de documentos está agora disponíveis gratuitamente para todos os usuários. Esta medida visa oferecer aos usuários uma experiência de tradução mais eficiente e precisa, especialmente em áreas profissionais como finanças, economia, computação e medicina. Pontos-chave: O modelo educacional 'Zi Yue' impulsiona significativamente a qualidade da tradução. A funcionalidade de tradução de documentos gratuita é baseada no modelo educacional 'Zi Yue' desenvolvido pela NetEase Youdao. Esse modelo suporta a tradução entre oito idiomas e afirma que, por meio de algoritmos otimizados, busca alcançar o nível mais alto do mundo.

NetEase Cloud Music lança função de recomendação por IA para criar playlists personalizadas

A NetEase Cloud Music anunciou a nova funcionalidade "Recomendação por IA", que permite aos usuários criar facilmente playlists personalizadas. Com esta função, os usuários podem pesquisar "Recomendação por IA" no aplicativo NetEase Cloud Music e encontrar rapidamente e usar este serviço. O principal destaque desta função é que os usuários precisam apenas descrever em uma frase suas necessidades, como "musicas para manter acordado durante o trabalho" ou "músicas K-pop de playlists favoritas", e a funçāo da NetEase Cloud Music irá gerar instantaneamente as playlists correspondentes com base no gênero musical, época e dados de preferência do usuário, que também pode

A OpenAI faz grande lançamento! O modelo de voz GPT-Realtime está disponível, suporta entrada de imagem, a interação com IA vai esquecer os limites!

A OpenAI apresenta oficialmente seu novo modelo de voz, o GPT-Realtime, esse modelo de agente de voz multimodal desperta discussões na indústria com sua forte capacidade de raciocínio, suporte à entrada de imagem e funcionalidades aprimoradas de conformidade com instruções. A partir das informações mais recentes, a AIbase descobriu que o GPT-Realtime não apenas fez avanços na interação de voz, mas também fornece soluções mais inteligentes e flexíveis para agentes de voz aos desenvolvedores por meio da integração de recursos como entrada de imagem, chamadas remotas MCP e SIP.

Tencent Yuanbao entra no comentários do WeChat Video: companheiro de conversa de IA atualizado, impulsionando interação eficiente

Recentemente, o assistente de inteligência artificial da Tencent, o "Tencent Yuanbao", entrou oficialmente na seção de comentários do WeChat Video, oferecendo uma nova experiência de interação aos usuários. Essa funcionalidade está em teste gradual e, ao assistir a vídeos, os usuários podem simplesmente mencionar @Tencent Yuanbao nos comentários para obter respostas em tempo real, resumos e sugestões sobre o conteúdo do vídeo, tornando os comentários não apenas um local para troca entre usuários, mas também uma plataforma eficiente para obtenção de informações. A entrada do Tencent Yuanbao aumentou significativamente a eficiência com que os usuários obtêm informações. Ao assistir a vídeos com conteúdo denso, o Yuanbao pode resumir rapidamente

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

Building and Deploying AI

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

OpenAI lança novo modelo de voz GPT-Realtime, projetado para Agentes de IA de voz

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Lucro acima do esperado! Alibaba Cloud cresce 26% e lidera o crescimento de três dígitos nos receitas de IA por oito trimestres consecutivos

Yao Xin da PPIO: Pensamento PDA essencial para empreendedores de IA impulsiona a revolução da inteligência global!

Bilionário Dan Loeb reduz sua posição na TSMC e investe em outra empresa de inteligência artificial com valor de mercado de trilhões

Assistente de IA do Baidu Search lança totalmente o modelo rápido, velocidade de geração de resultados da pesquisa melhora significativamente

Diário de IA: Funcionalidade de quadro inicial e final da Hailuo IA lançada; a Youshi Technology lança o Xiao Bai 5; a OpenAI lança um novo modelo de voz GPT-Realtime

A funcionalidade de tradução de documentos da NetEase Youdao está agora disponível gratuitamente, utilizando o modelo educacional 'Zi Yue' para melhorar a eficiência da comunicação multilíngue

NetEase Cloud Music lança função de recomendação por IA para criar playlists personalizadas

A OpenAI faz grande lançamento! O modelo de voz GPT-Realtime está disponível, suporta entrada de imagem, a interação com IA vai esquecer os limites!

Xcode da Apple integra fortemente Claude Sonnet4: a era da revolução da IA no desenvolvimento de apps para iOS

Tencent Yuanbao entra no comentários do WeChat Video: companheiro de conversa de IA atualizado, impulsionando interação eficiente