螞蟻集團開源全模態大模型Ming-Flash-Omni2.0,在視覺語言理解、語音生成、圖像處理等多項基準測試中表現優異,部分指標超越Gemini2.5Pro。該模型首創全場景音頻統一生成能力,支持在同一條音軌中生成語音、音效和音樂,用戶通過自然語言指令即可調整音色、語速等參數。
Jan團隊發佈300億參數多模態大模型Jan-v2-VL-Max,專爲長週期、高穩定性自動化任務設計,性能超越谷歌Gemini2.5Pro與DeepSeek R1。該模型重點解決多步任務中的“誤差累積”和“失焦”問題,爲開源智能體生態提供強大支持。
谷歌升級Gemini2.5Flash音頻模型,實現AI擬人化實時交流。新模型能直接處理聲音中的語調、情感和停頓,無需先轉文字,使對話更自然流暢。
谷歌Gemini2.5Flash Native Audio更新顯著提升語音助手功能,能更準確處理複雜指令,使對話更自然流暢。開發者指令遵循率從84%提升至90%,多步驟對話質量也明顯改善。