OpenAI推出三款實時語音模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper,集成至Realtime API。GPT-Realtime-2是首個最智能的AI語音模型,旨在解決語音交互中的延遲高、無法自然打斷和多語言支持難等痛點。
OpenAI推出兩項API更新,提升AI智能體在語音交互與複雜任務中的性能。全新實時模型gpt-realtime-1.5及配套音頻模型,顯著提高語音命令可靠性。內部測試顯示,新模型在數字字母轉錄準確率上提升約10%,邏輯音頻任務準確率提高5%,指令執行準確率提升7%。
微軟發佈GPT-realtime語音轉語音模型,整合多項語音技術改進,聚焦自然語言處理、音頻質量和指令跟隨能力。開發者可通過Azure AI Foundry平臺的Real-time API訪問,獲得更自然、富有表現力的語音輸出和高質量音頻體驗。
OpenAI發佈GPT-realtime語音模型,突破AI語音交互天花板。該模型以自然流暢度和情感表達力著稱,能精準模擬人類語調、情感波動和語速變化,徹底改變傳統AI語音生硬僵化的缺陷,實現極致還原人類語音細節。