谷歌升級Gemini2.5Flash音頻模型,實現AI擬人化實時交流。新模型能直接處理聲音中的語調、情感和停頓,無需先轉文字,使對話更自然流暢。
谷歌Gemini2.5Flash Native Audio更新顯著提升語音助手功能,能更準確處理複雜指令,使對話更自然流暢。開發者指令遵循率從84%提升至90%,多步驟對話質量也明顯改善。
谷歌AI電影工具Flow新增圖像編輯功能,集成Gemini2.5Flash模型,支持自然語言指令實現去背景、主體分離和場景替換,可生成8秒動態鏡頭。面向免費及以上用戶開放,單張處理0.039美元,企業版同步上線Vertex AI。用戶上傳圖片後輸入提示詞,即可獲得PNG透明圖或合成效果圖。
谷歌DeepMind發佈多模態智能體SIMA2,基於Gemini2.5Flash-lite模型,任務成功率較前代提升約一倍。新版本能在陌生環境中執行復雜指令,具備自我改進能力,通過引入自生成數據循環機制:系統調用獨立Gemini模型在新場景中批量生成任務。目前以研究預覽形式發佈,旨在驗證實現通用人工智能所需的高階世界理解與推理能力。