A OpenAI realizou uma transmissão técnica às 1h da manhã e lançou oficialmente seu novo modelo de voz — GPT-Realtime. Este modelo multimodal foi desenvolvido especialmente para agentes de inteligência artificial de voz, com o objetivo de gerar vozes mais naturais e fluidas, capazes de imitar as diversas tonalidades, emoções e velocidades de fala humanas. As aplicações do GPT-Realtime são amplas, abrangendo setores como atendimento ao cliente, educação, finanças e saúde, oferecendo suporte poderoso para a criação de assistentes de voz inteligentes.

image.png

O GPT-Realtime introduziu duas novas estilos de voz únicos — Marin e Cedar — e atualizou totalmente os oito estilos anteriores. Diferente dos modelos tradicionais de voz, o GPT-Realtime não apenas gera voz, mas também possui capacidade de inteligência, raciocínio e compreensão. Por exemplo, o modelo pode capturar com precisão sinais não verbais como risadas e alternar fluentemente entre idiomas em conversas, adaptando-se às diferentes necessidades de cenários.

Em termos de avaliação, a taxa de detecção de sequências alfanuméricas do GPT-Realtime melhorou significativamente em diversos ambientes linguísticos, com uma taxa de acerto de 82,8% nas avaliações de capacidade de raciocínio, tornando-o um dos melhores modelos de voz inteligente disponíveis atualmente. A melhoria na capacidade de seguir instruções também é um destaque importante deste modelo. Os desenvolvedores podem personalizar instruções para melhorar a resposta do modelo. Na avaliação de benchmark de áudio MultiChallenge, a taxa de acerto no seguimento de instruções do GPT-Realtime subiu de 20,6% para 30,5%.

Além da capacidade de geração de voz, o GPT-Realtime também suporta entrada de imagem. Os desenvolvedores podem combinar imagens com áudio ou texto em sessões, permitindo que o modelo converse com base no que o usuário vê, oferecendo uma experiência de interação mais personalizada. Além disso, o novo recurso do Realtime API permite que os desenvolvedores conectem-se facilmente a servidores remotos MCP, simplificando o processo de integração e aumentando a eficiência do desenvolvimento.

No aspecto de segurança e privacidade, o Realtime API inclui medidas de proteção em várias camadas, monitorando em tempo real o conteúdo das conversas para prevenir abusos. Além disso, os desenvolvedores podem adicionar proteção de segurança personalizada conforme necessário, garantindo a segurança do ambiente de uso.

A partir do momento do lançamento, todos os desenvolvedores poderão usar o novo Realtime API e o modelo GPT-Realtime, com o preço dos tokens de entrada de áudio reduzido em 20%. Além disso, os desenvolvedores podem configurar livremente os limites de tokens inteligentes para reduzir os custos de conversas longas.

Destaque:

🌟 O GPT-Realtime é o novo modelo multimodal de voz lançado pela OpenAI, adequado para vários setores, como atendimento ao cliente e educação.  

📈 A capacidade de raciocínio e a taxa de acerto no seguimento de instruções deste modelo melhoraram significativamente, oferecendo suporte mais forte aos desenvolvedores.  

🔒 O Realtime API inclui medidas de proteção de segurança, garantindo a segurança e a privacidade das interações dos usuários.