计算机视觉正从“看清世界”转向“理解与交互”。随着感知能力接近人类极限,单纯追求准确率的边际收益递减。CVPR2026标志着研究重点转向:视觉成为推理、决策与交互的中介,告别“盲目推理”,迈向自适应与隐式路径,如多模态模型通过“思维链”展开逻辑。
腾讯混元团队开源视频生成加速方案DisCa,通过可学习特征缓存技术,在已蒸馏的少步模型上进一步压缩推理成本,提升生成速度。该方案代码与模型权重已公开,并被CVPR2026收录。