OpenAI推出三款实时语音模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper,集成至Realtime API。GPT-Realtime-2是首个最智能的AI语音模型,旨在解决语音交互中的延迟高、无法自然打断和多语言支持难等痛点。
OpenAI推出两项API更新,提升AI智能体在语音交互与复杂任务中的性能。全新实时模型gpt-realtime-1.5及配套音频模型,显著提高语音命令可靠性。内部测试显示,新模型在数字字母转录准确率上提升约10%,逻辑音频任务准确率提高5%,指令执行准确率提升7%。
微软发布GPT-realtime语音转语音模型,整合多项语音技术改进,聚焦自然语言处理、音频质量和指令跟随能力。开发者可通过Azure AI Foundry平台的Real-time API访问,获得更自然、富有表现力的语音输出和高质量音频体验。
OpenAI发布GPT-realtime语音模型,突破AI语音交互天花板。该模型以自然流畅度和情感表达力著称,能精准模拟人类语调、情感波动和语速变化,彻底改变传统AI语音生硬僵化的缺陷,实现极致还原人类语音细节。