騰訊AI Lab首創並行思維框架,讓大模型解鎖全新推理方式!
隨着 AI 技術的不斷進步,如何讓大模型具備 “並行思維” 能力,成爲了研究者們關注的熱點話題。最近,騰訊 AI Lab 聯合多所高校的研究團隊推出了一個名爲 Parallel-R1的全新強化學習(RL)框架,旨在教會大模型如何同時探索多條推理路徑。這一創新的框架爲應對複雜的數學推理任務開闢了新思路。傳統的方法往往依賴於監督微調(SFT),這種方式不僅對數據質量要求極高,而且模型通常只會模仿已有的數據,缺乏自主學習和泛化能力。爲了解決這些問題,Parallel-R1框架應運而生。研究團