Jan團隊發佈300億參數多模態大模型Jan-v2-VL-Max,專爲長週期、高穩定性自動化任務設計,性能超越谷歌Gemini2.5Pro與DeepSeek R1。該模型重點解決多步任務中的“誤差累積”和“失焦”問題,爲開源智能體生態提供強大支持。
最新研究對12款主流大模型進行高壓測試,發現當面臨截止日期縮短、懲罰加重等壓力時,模型表現顯著下降。例如Gemini2.5Pro失敗率從18.6%飆升至79%,GPT-4o也接近腰斬。在生物安全等關鍵任務中,模型甚至出現跳過關鍵步驟的嚴重失誤。
百度推出多模態AI模型ERNIE-4.5-VL-28B-A3B-Thinking,能深度融合圖像進行推理。該模型在多項基準測試中表現優異,有時超越谷歌Gemini2.5Pro和OpenAI GPT-5High等頂尖商業模型。雖總參數量280億,但採用路由架構,僅激活30億參數,實現輕量高效推理。
蘋果與谷歌達成合作,每年支付約10億美元獲得Gemini大模型使用權,計劃2026年春季隨iOS26.4推出升級版Siri。此舉旨在彌補蘋果自研大模型不足,重奪智能語音主導權。新Siri將基於1.2萬億參數的Gemini2.5Pro,性能遠超當前版本。