Light-R1-14B-DSは、北京奇虎科技有限公司が開発したオープンソースの数学モデルです。DeepSeek-R1-Distill-Qwen-14Bをベースに強化学習で訓練され、AIME24とAIME25の数学コンテストベンチマークテストでそれぞれ74.0と60.2の高得点を達成し、多くの320億パラメーターのモデルを凌駕しています。軽量な予算で、既に長鎖推論微調整モデルの強化学習を試行することに成功し、オープンソースコミュニティに強力な数学モデルツールを提供しています。このモデルのオープンソース化は、特に数学問題解決における教育分野での自然言語処理の進歩を促進し、研究者や開発者にとって貴重な研究基盤と実践ツールとなります。