Jan团队发布300亿参数多模态大模型Jan-v2-VL-Max,专为长周期、高稳定性自动化任务设计,性能超越谷歌Gemini2.5Pro与DeepSeek R1。该模型重点解决多步任务中的“误差累积”和“失焦”问题,为开源智能体生态提供强大支持。
谷歌升级Gemini2.5Flash音频模型,实现AI拟人化实时交流。新模型能直接处理声音中的语调、情感和停顿,无需先转文字,使对话更自然流畅。
谷歌Gemini2.5Flash Native Audio更新显著提升语音助手功能,能更准确处理复杂指令,使对话更自然流畅。开发者指令遵循率从84%提升至90%,多步骤对话质量也明显改善。
最新研究对12款主流大模型进行高压测试,发现当面临截止日期缩短、惩罚加重等压力时,模型表现显著下降。例如Gemini2.5Pro失败率从18.6%飙升至79%,GPT-4o也接近腰斩。在生物安全等关键任务中,模型甚至出现跳过关键步骤的严重失误。
Google
$0.49
输入tokens/百万
$2.1
输出tokens/百万
1k
上下文长度
$0.7
$2.8
$17.5
$8.75
$70
-
$1.4
131
Baidu
$1
$4
64
Sensetime
$1.5
$4.5
128
$1.05
$4.2
2.1k
$3.5
$10.5
32