最好的Light-R1-14B-DS AI工具模型_精選Light-R1-14B-DS資訊

AI資訊

360智腦團隊成功復現Deepseek強化學習效果，發佈開源模型Light-R1-14B-DS

近日，360智腦團隊宣佈成功復現Deepseek的強化學習效果，並正式發佈開源推理模型 Light-R1-14B-DS。該模型性能表現超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B，成爲業界首款在14B參數規模上實現強化學習效果的模型，顯著提升了數學推理能力，成績超過大多數32B級別模型。與 DeepSeek-R1-14B 相比，Light-R1-14B-DS*在數學競賽任務中表現突出:在 AIME24測試中提升4.3分，在 AIME25中更是提高10分。此外，在數學推理任務 GPQA 上，該模型取得61.7分的優異成績。爲實現這一突破，360智腦團隊採用了兩

20.8k 5 天前