顛覆傳統!Mini-o3 開源模型實現超長視覺推理,深度思考不再是難題
近日,字節跳動與香港大學聯合推出了一款全新的開源視覺推理模型 ——Mini-o3,標誌着多輪視覺推理技術的又一重大突破。與以往只能進行1-2輪對話的視覺語言模型(VLM)不同,Mini-o3在訓練時限制了對話輪數爲6輪,但在測試階段卻能將推理輪數擴展至數十輪,極大提升了視覺問題處理的能力。Mini-o3的強大之處在於其在高難度視覺搜索任務中實現了深度推理,達到當前技術的頂尖水平。這得益於該模型的三個核心設計要素。首先,研究團隊構建了一個名爲 VisualProbe 的視覺探測數據集,包