AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
TW

AI資訊

查看更多

360智腦團隊成功復現Deepseek強化學習效果,發佈開源模型Light-R1-14B-DS

近日,360智腦團隊宣佈成功復現Deepseek的強化學習效果,並正式發佈開源推理模型 Light-R1-14B-DS。該模型性能表現超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B,成爲業界首款在14B參數規模上實現強化學習效果的模型,顯著提升了數學推理能力,成績超過大多數32B級別模型。與 DeepSeek-R1-14B 相比,Light-R1-14B-DS*在數學競賽任務中表現突出:在 AIME24測試中提升4.3分,在 AIME25中更是提高10分。此外,在數學推理任務 GPQA 上,該模型取得61.7分 的優異成績。爲實現這一突破,360智腦團隊採用了兩

19.2k 1 天前
360智腦團隊成功復現Deepseek強化學習效果,發佈開源模型Light-R1-14B-DS

AI產品

查看更多
Light-R1-14B-DS

Light-R1-14B-DS

一款開源的14B參數量的數學模型,通過強化學習訓練,性能卓越。

AI模型
11.2k

模型

查看更多

Light R1 14B DS GGUF

qihoo360

L

Light-R1-14B-DS 是一個14B參數規模的量化大語言模型,支持文本生成任務,適用於資源受限環境下的高效推理。

自然語言處理GgufGguf
qihoo360
2.8k
9

Light R1 14B DS

qihoo360

L

Light-R1-14B-DS是一個14B參數的數學SOTA模型,採用強化學習訓練,在AIME24/25和GPQA基準測試中表現優異。

自然語言處理TransformersTransformers
qihoo360
2.9k
33
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商務合作網站地圖