最好的Reinforcement Learning AI工具模型_精選Reinforcement Learning資訊

AI資訊

谷歌DeepMind推出SCoRe：大型語言模型自我糾正新技術

谷歌DeepMind研究團隊最近取得重大突破，開發出名爲SCoRe（Self-Correction through Reinforcement Learning，通過強化學習進行自我糾正）的創新技術。這一技術旨在解決大型語言模型(LLM)難以自我糾正的長期挑戰，無需依賴多個模型或外部檢查即可識別和修復錯誤。SCoRe技術的核心在於其兩階段方法。第一階段優化模型初始化，使其能在第二次嘗試時生成修正，同時保持初始響應與基礎模型的相似性。第二階段採用多階段強化學習，教導模型如何改進第一和第二個答案。這種方法的獨特之處在於它僅使

16.2k 6 小時前

模型

Tiny GptOssForCausalLM

trl-internal-testing

Tiny GptOssForCausalLM 是一個專為 TRL (Transformer Reinforcement Learning) 庫單元測試設計的最小化因果語言模型。該模型規模極小，主要用於驗證 TRL 庫中強化學習相關功能在特定模型架構下的運行正確性。

Guru 7B

LLM360

Guru-7B是基於Qwen2.5-7B的強化學習推理模型，在論文《Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective》中提出。該模型在數學、代碼、科學、邏輯推理等多個領域展現出卓越的推理能力，在多項基準測試中表現優異。