MiniMax與騰訊雲合作,成功部署了具備百萬級吞吐、十萬級併發能力的Agent強化學習沙箱,並在測試環境中實現全量平穩運行。這標誌着AI智能體底層基建能力取得重要突破,爲其大規模應用提供了關鍵支撐。
螞蟻集團與清華大學聯合發佈開源強化學習訓練框架AReaL v1.0穩定版,主打“Agent一鍵接入RL訓練”,無需修改代碼即可兼容各類智能體框架,實現開箱即用。該版本旨在解決當前智能體框架接入訓練成本高、接口各異等瓶頸,推動強化學習訓練更便捷高效。
AI專家龐天宇加盟騰訊混元,擔任首席研究科學家及多模態強化學習技術負責人,負責組建頂尖團隊攻關多模態生成與理解前沿難題。龐天宇爲清華大學計算機系直博生,師從朱軍教授,學術背景深厚。
Jan團隊推出30B參數多模態模型Jan-v2-VL-Max,專注解決AI在複雜自動化任務中易中斷的痛點。該模型基於Qwen3-VL-30B-A3B-Thinking,引入LoRA-based RLVR技術,旨在提升多步操作的穩定性,實現更可靠的長週期任務執行。
Light-R1 是一個專注於長鏈推理(Long COT)的開源項目,通過課程式 SFT、DPO 和 RL 提供從零開始的訓練方法。
一個強大的本地文檔問答工具,連接到你的本地Ollama模型,用於創建和管理RAG系統。
通過強化學習提升大型語言模型在開源軟件演變中的推理能力
一個用於強化學習人類反饋訓練過程可視化的工具,幫助深度理解與調試。
Minimax
$1.6
輸入tokens/百萬
$16
輸出tokens/百萬
1k
上下文長度
OpenMMReasoner
OpenMMReasoner是一個完全透明的兩階段多模態推理方案,採用監督微調(SFT)和強化學習(RL)訓練。在SFT階段構建了874K樣本的冷啟動數據集,RL階段利用74K樣本進一步提升能力,在多模態推理基準測試中表現出色。
OpenMMReasoner是一個完全透明的兩階段多模態推理方案,涵蓋有監督微調(SFT)和強化學習(RL)。該方案通過精心構建高質量數據集,在多個多模態推理基準測試中超越了強大的基線模型,為未來大規模多模態推理研究奠定了堅實的實證基礎。
allenai
Olmo 3 7B RL-Zero Math是Allen AI開發的專為數學推理任務優化的70億參數語言模型,採用RL-Zero強化學習方法在數學數據集上進行訓練,能有效提升數學推理能力。
Olmo 3 7B RL-Zero Mix是Allen AI開發的7B參數規模的語言模型,屬於Olmo 3系列。該模型在Dolma 3數據集上進行預訓練,在Dolci數據集上進行後訓練,並通過強化學習優化數學、編碼和推理能力。
Mungert
PokeeResearch-7B是由Pokee AI開發的70億參數深度研究代理模型,結合了AI反饋強化學習(RLAIF)和強大的推理框架,能夠在工具增強的大語言模型中實現可靠、對齊和可擴展的研究級推理,適用於複雜的多步驟研究工作流程。
PokeeAI
PokeeResearch-7B是由Pokee AI開發的70億參數深度研究智能體,結合基於AI反饋的強化學習(RLAIF)與推理框架,能夠執行復雜的多步驟研究工作流程,包括自我修正、驗證和綜合分析。
mlx-community
Apriel-1.5-15B-Thinker是一個專為圖像理解與推理設計的150億參數多模態模型,採用中期訓練方法而非RLHF訓練。本版本為適用於蘋果芯片的MLX量化版本,具有內存佔用小、啟動速度快的特點。
MBZUAI-Paris
Frugal-Math-4B是一款針對數學推理優化的4B參數語言模型,通過強化學習驗證獎勵(RLVR)方法訓練,能夠在保持高準確性的同時生成簡潔、可驗證的數學解決方案,顯著減少推理冗長性。
EpistemeAI
本模型基於GPT-OSS-20B,藉助Unsloth強化學習框架進行微調,旨在優化推理效率,同時減少在從人類反饋中進行強化學習(RLHF)式訓練期間出現的漏洞。微調過程著重於對齊的魯棒性和效率,確保模型在不產生過多計算開銷的情況下保持推理深度。
Jackrong
基於microsoft/phi-4(14B)基礎模型的三階段訓練GRPO推理測試模型,通過SFT→RLHF→SFT流程微調,具備優秀的多步推理能力
allura-forge
MiMo是小米專為推理任務從頭開始訓練的大語言模型系列,通過優化預訓練和後訓練策略,在數學和代碼推理任務上展現出卓越性能。項目開源了7B參數規模的多個版本,包括基礎模型、SFT模型和RL模型。
shiviklabs
基於Qwen3-1.7B微調的版本,通過1-shot強化學習與可驗證獎勵(RLVR)方法增強了數學推理能力,在數學基準測試和編碼任務中表現出色。
Franklin0
ReasonGen-R1是一個融合思維鏈推理的自迴歸圖像生成模型,通過SFT和RL提升圖像生成的邏輯性和質量。
zake7749
單體模型(Monomer)是一系列推理語言模型(RLMs)的集合,專注於中英文場景下的規劃、設計和寫作任務,提供清晰的分步推理軌跡。
unsloth
OLMo 2 1B指令版是基於OLMo-2-0425-1B-RLVR1模型的後訓練變體,經過監督微調、DPO訓練和RLVR訓練,旨在實現多種任務的最先進性能。
XiaomiMiMo
MiMo-7B 是小米推出的專為推理任務設計的語言模型系列,包括基礎模型、SFT模型和RL模型,在數學和代碼推理任務上表現優異。
OLMo 2 1B RLVR 1 April 2025是基於allenai/OLMo-2-0425-1B-DPO模型的後訓練變體,在多種特定數據集上進行了微調訓練。該模型在數學推理、代碼生成、指令跟隨等多個任務中展現出了較好的性能,是一個專為研究和教育目的設計的1B參數規模的大語言模型。
OLMo 2 1B是基於allenai/OLMo-2-0425-1B-RLVR1模型的後訓練變體,經過監督微調、DPO訓練和RLVR訓練,旨在實現多種任務的最先進性能。
XXsongLALA
Qwen-2.5-7B-base-RAG-RL 是一個基於未知數據集從頭開始訓練的7B參數規模的大語言模型,結合了檢索增強生成(RAG)和強化學習(RL)技術。
zhangchenxu
基於Qwen/Qwen2.5-1.5B-Instruct模型進行微調,使用了TinyV獎勵系統,能在高效強化學習(RL)後訓練中提供更準確的獎勵信號,顯著提升RL效率和最終模型性能。
一個基於R語言的MCP服務器,提供ggplot2數據可視化和R腳本執行功能,支持多種輸出格式和Docker容器化運行。
OpenManus是一個無需邀請碼即可實現各種想法的開源項目,由MetaGPT團隊成員在3小時內構建完成。它提供了一個簡單的實現,允許用戶創建自己的智能代理,並支持多種語言和配置。項目歡迎建議、貢獻和反饋,未來計劃包括更好的規劃、即時演示、回放功能、RL微調模型和全面的基準測試。
RLM MCP服務器是一個基於遞歸語言模型模式的大規模上下文處理工具,允許Claude代碼通過外部變量處理超過1000萬token的文本,避免直接將海量內容輸入提示詞。它通過加載、分塊、子查詢和聚合的流程,支持自動分析和程序化執行,可連接Claude API或本地Ollama進行免費推理。
RLM Tools是一個MCP服務器工具,為AI編程代理提供持久化沙箱環境,允許在服務器端探索和分析代碼,僅將結論返回給模型,大幅減少上下文窗口占用和成本。