最新研究對12款主流大模型進行高壓測試,發現當面臨截止日期縮短、懲罰加重等壓力時,模型表現顯著下降。例如Gemini2.5Pro失敗率從18.6%飆升至79%,GPT-4o也接近腰斬。在生物安全等關鍵任務中,模型甚至出現跳過關鍵步驟的嚴重失誤。
谷歌AI電影工具Flow新增圖像編輯功能,集成Gemini2.5Flash模型,支持自然語言指令實現去背景、主體分離和場景替換,可生成8秒動態鏡頭。面向免費及以上用戶開放,單張處理0.039美元,企業版同步上線Vertex AI。用戶上傳圖片後輸入提示詞,即可獲得PNG透明圖或合成效果圖。
谷歌DeepMind發佈多模態智能體SIMA2,基於Gemini2.5Flash-lite模型,任務成功率較前代提升約一倍。新版本能在陌生環境中執行復雜指令,具備自我改進能力,通過引入自生成數據循環機制:系統調用獨立Gemini模型在新場景中批量生成任務。目前以研究預覽形式發佈,旨在驗證實現通用人工智能所需的高階世界理解與推理能力。
百度推出多模態AI模型ERNIE-4.5-VL-28B-A3B-Thinking,能深度融合圖像進行推理。該模型在多項基準測試中表現優異,有時超越谷歌Gemini2.5Pro和OpenAI GPT-5High等頂尖商業模型。雖總參數量280億,但採用路由架構,僅激活30億參數,實現輕量高效推理。