Jan团队发布300亿参数多模态大模型Jan-v2-VL-Max,专为长周期、高稳定性自动化任务设计,性能超越谷歌Gemini2.5Pro与DeepSeek R1。该模型重点解决多步任务中的“误差累积”和“失焦”问题,为开源智能体生态提供强大支持。
最新研究对12款主流大模型进行高压测试,发现当面临截止日期缩短、惩罚加重等压力时,模型表现显著下降。例如Gemini2.5Pro失败率从18.6%飙升至79%,GPT-4o也接近腰斩。在生物安全等关键任务中,模型甚至出现跳过关键步骤的严重失误。
百度推出多模态AI模型ERNIE-4.5-VL-28B-A3B-Thinking,能深度融合图像进行推理。该模型在多项基准测试中表现优异,有时超越谷歌Gemini2.5Pro和OpenAI GPT-5High等顶尖商业模型。虽总参数量280亿,但采用路由架构,仅激活30亿参数,实现轻量高效推理。
苹果与谷歌达成合作,每年支付约10亿美元获得Gemini大模型使用权,计划2026年春季随iOS26.4推出升级版Siri。此举旨在弥补苹果自研大模型不足,重夺智能语音主导权。新Siri将基于1.2万亿参数的Gemini2.5Pro,性能远超当前版本。