360智腦團隊成功復現Deepseek強化學習效果,發佈開源模型Light-R1-14B-DS
近日,360智腦團隊宣佈成功復現Deepseek的強化學習效果,並正式發佈開源推理模型 Light-R1-14B-DS。該模型性能表現超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B,成爲業界首款在14B參數規模上實現強化學習效果的模型,顯著提升了數學推理能力,成績超過大多數32B級別模型。與 DeepSeek-R1-14B 相比,Light-R1-14B-DS*在數學競賽任務中表現突出:在 AIME24測試中提升4.3分,在 AIME25中更是提高10分。此外,在數學推理任務 GPQA 上,該模型取得61.7分 的優異成績。爲實現這一突破,360智腦團隊採用了兩