颠覆传统!Mini-o3 开源模型实现超长视觉推理,深度思考不再是难题
近日,字节跳动与香港大学联合推出了一款全新的开源视觉推理模型 ——Mini-o3,标志着多轮视觉推理技术的又一重大突破。与以往只能进行1-2轮对话的视觉语言模型(VLM)不同,Mini-o3在训练时限制了对话轮数为6轮,但在测试阶段却能将推理轮数扩展至数十轮,极大提升了视觉问题处理的能力。Mini-o3的强大之处在于其在高难度视觉搜索任务中实现了深度推理,达到当前技术的顶尖水平。这得益于该模型的三个核心设计要素。首先,研究团队构建了一个名为 VisualProbe 的视觉探测数据集,包