探祕 LLM 強化學習兼容性:上海交大揭示 Llama 與 Qwen 差異,推出 OctoThinker
大型語言模型(LLM)通過結合任務提示和大規模強化學習(RL)在複雜推理任務中取得了顯著進展,如 Deepseek-R1-Zero 等模型直接將強化學習應用於基礎模型,展現出強大的推理能力。然而,這種成功在不同的基礎模型系列中難以複製,尤其是在 Llama 系列上。這引發了一個核心問題:究竟是什麼因素導致了不同基礎模型在強化學習過程中表現不一致?強化學習在 Llama 模型上的擴展限制OpenAI 的 o1、o3和 DeepSeek 的 R1等模型在競賽級數學問題上通過大規模強化學習取得了突破,推動了對千億參數以下小