最新研究对12款主流大模型进行高压测试,发现当面临截止日期缩短、惩罚加重等压力时,模型表现显著下降。例如Gemini2.5Pro失败率从18.6%飙升至79%,GPT-4o也接近腰斩。在生物安全等关键任务中,模型甚至出现跳过关键步骤的严重失误。
谷歌AI电影工具Flow新增图像编辑功能,集成Gemini2.5Flash模型,支持自然语言指令实现去背景、主体分离和场景替换,可生成8秒动态镜头。面向免费及以上用户开放,单张处理0.039美元,企业版同步上线Vertex AI。用户上传图片后输入提示词,即可获得PNG透明图或合成效果图。
谷歌DeepMind发布多模态智能体SIMA2,基于Gemini2.5Flash-lite模型,任务成功率较前代提升约一倍。新版本能在陌生环境中执行复杂指令,具备自我改进能力,通过引入自生成数据循环机制:系统调用独立Gemini模型在新场景中批量生成任务。目前以研究预览形式发布,旨在验证实现通用人工智能所需的高阶世界理解与推理能力。
百度推出多模态AI模型ERNIE-4.5-VL-28B-A3B-Thinking,能深度融合图像进行推理。该模型在多项基准测试中表现优异,有时超越谷歌Gemini2.5Pro和OpenAI GPT-5High等顶尖商业模型。虽总参数量280亿,但采用路由架构,仅激活30亿参数,实现轻量高效推理。