螞蟻集團開源全模態大模型Ming-Flash-Omni2.0,在視覺語言理解、語音生成、圖像處理等多項基準測試中表現優異,部分指標超越Gemini2.5Pro。該模型首創全場景音頻統一生成能力,支持在同一條音軌中生成語音、音效和音樂,用戶通過自然語言指令即可調整音色、語速等參數。
Jan團隊發佈300億參數多模態大模型Jan-v2-VL-Max,專爲長週期、高穩定性自動化任務設計,性能超越谷歌Gemini2.5Pro與DeepSeek R1。該模型重點解決多步任務中的“誤差累積”和“失焦”問題,爲開源智能體生態提供強大支持。
最新研究對12款主流大模型進行高壓測試,發現當面臨截止日期縮短、懲罰加重等壓力時,模型表現顯著下降。例如Gemini2.5Pro失敗率從18.6%飆升至79%,GPT-4o也接近腰斬。在生物安全等關鍵任務中,模型甚至出現跳過關鍵步驟的嚴重失誤。
百度推出多模態AI模型ERNIE-4.5-VL-28B-A3B-Thinking,能深度融合圖像進行推理。該模型在多項基準測試中表現優異,有時超越谷歌Gemini2.5Pro和OpenAI GPT-5High等頂尖商業模型。雖總參數量280億,但採用路由架構,僅激活30億參數,實現輕量高效推理。