360智脳チーム、Deepseek強化学習効果の再現に成功、オープンソースモデルLight-R1-14B-DSを発表
先日、360智脳チームはDeepseekの強化学習効果の再現に成功し、オープンソースの推論モデルLight-R1-14B-DSを正式に発表しました。このモデルは、DeepSeek-R1-Distill-Llama-70BおよびDeepSeek-R1-Distill-Qwen-32Bを上回る性能を示し、14Bパラメーター規模で強化学習効果を実現した業界初のモデルとなりました。数学的推論能力が大幅に向上し、多くの32B級モデルを上回る成果を達成しています。