最好的GRPO AI工具模型_精選GRPO資訊

AI資訊

英偉達開源 Polar 框架：讓 AI 編碼智能體實現強化學習“零門檻”進化

英偉達開源Polar強化學習訓練框架，核心創新在於使Codex、Claude Code等主流代碼智能體無需修改原生代碼即可接入GRPO訓練。該框架解決代碼智能體從單步任務向複雜長流程任務（如倉庫級修改、OS交互）演進時的行業痛點，打破了智能體強化學習的“圍牆”。

21.1k 昨天

英偉達推出開源 AI 框架 Polar，Codex 性能提升近 600%

英偉達研究團隊推出開源AI框架Polar，旨在讓現有智能體框架（如Codex、Claude Code、Qwen Code）無縫接入廣義相對策略優化（GRPO）訓練方法。GRPO是一種強化學習優化技術，通過獎勵信號調整模型策略，提升多步決策任務表現。Polar不改變原有工具調用、上下文組織和補丁提交方式，顯著增強代碼智能體的性能。

16.5k 6 天前

騰訊提出無訓練優化方法：120元成本實現傳統7萬元微調效果

騰訊發佈Training-Free GRPO技術，通過外部知識庫替代參數微調，在模型參數凍結狀態下實現性能優化。該方法將經驗知識轉化爲token級先驗信息，顯著降低訓練成本，在DeepSeek-V3.1-Terminus模型上達到與昂貴微調相當的提升效果。

15.1k 4 天前

ART框架發佈！用Python一鍵訓練AI Agent，郵件搜索到遊戲操控全能搞定！

開源強化學習框架ART正式發佈，爲AI Agent訓練帶來新突破。該框架集成GRPO技術，支持Python開發者便捷訓練多步驟任務Agent，如郵件搜索和遊戲操控。特點包括：1)支持Qwen2.5-7B等小型模型；2)客戶端-服務器分離架構簡化部署；3)與主流平臺集成提供訓練監控。應用場景涵蓋郵件自動化、遊戲AI開發和多Agent協作。採用GRPO算法確保長期任務穩定性，兼容多種語言模型。項目開源並鼓勵社區參與，未來計劃擴展多模態支持。

9.6k 前天