A Microsoft anunciou oficialmente que seu novo modelo de texto para fala (S2S), o GPT-realtime, foi lançado oficialmente na plataforma Azure AI Foundry. Este novo modelo integra várias melhorias da Microsoft em tecnologia de voz em um único produto, com seus principais benefícios focados no processamento de linguagem natural, qualidade de áudio excepcional e capacidade mais precisa de seguir instruções.

Desenvolvedores agora podem acessar o GPT-realtime por meio da nova API Real-time. Esse modelo visa oferecer saídas de voz mais naturais e expressivas e uma experiência de áudio de maior qualidade. Como parte deste lançamento, a Microsoft também apresentou duas novas opções de voz - Marin e Cedar - destinadas a trazer síntese de voz realista e clara para os usuários.
A Microsoft destacou em seu anúncio algumas melhorias-chave no novo modelo, incluindo a capacidade aprimorada de chamada de funções, maior precisão na execução de instruções e suporte inovador para entrada de imagens. Essa nova funcionalidade permite que os usuários adicionem imagens às conversas de voz e as discutam, permitindo interação multimodal sem depender de transmissão de vídeo.
Além das melhorias técnicas, a Microsoft também ajustou seu modelo de preços. Em comparação com a versão prévia anterior gpt-4o-realtime, o lançamento oficial do gpt-realtime tem 20% menos custo, sendo calculado com base no uso de milhões de tokens (tokens).
Este lançamento marca o compromisso da Microsoft em expandir suas capacidades de IA em tempo real para desenvolvedores e empresas em todo o mundo. Combinando síntese de voz expressiva, áudio de alta qualidade e entrada multimodal, o GPT-realtime tem potencial para fornecer suporte técnico poderoso para uma ampla gama de aplicações, desde sistemas avançados de atendimento ao cliente até ferramentas inovadoras de auxílio.






