郝建邺认为,AI若不能从“存储”跨越到“记忆”,就无法成为真正的智能伙伴。其创立的忆纪元科技(MemoraX AI)成立仅一个月,便完成千万美元种子轮融资,由L2F光源创业者基金、钟鼎资本联合领投。资金将主要用于Agentic RL(智能体强化学习)技术的研发,旨在突破大模型仅作为“高效搜索引擎”的局限。
MiniMax与腾讯云合作,成功部署了具备百万级吞吐、十万级并发能力的Agent强化学习沙箱,并在测试环境中实现全量平稳运行。这标志着AI智能体底层基建能力取得重要突破,为其大规模应用提供了关键支撑。
蚂蚁集团与清华大学联合发布开源强化学习训练框架AReaL v1.0稳定版,主打“Agent一键接入RL训练”,无需修改代码即可兼容各类智能体框架,实现开箱即用。该版本旨在解决当前智能体框架接入训练成本高、接口各异等瓶颈,推动强化学习训练更便捷高效。
AI专家庞天宇加盟腾讯混元,担任首席研究科学家及多模态强化学习技术负责人,负责组建顶尖团队攻关多模态生成与理解前沿难题。庞天宇为清华大学计算机系直博生,师从朱军教授,学术背景深厚。
Light-R1 是一个专注于长链推理(Long COT)的开源项目,通过课程式 SFT、DPO 和 RL 提供从零开始的训练方法。
一个强大的本地文档问答工具,连接到你的本地Ollama模型,用于创建和管理RAG系统。
通过强化学习提升大型语言模型在开源软件演变中的推理能力
一个用于强化学习人类反馈训练过程可视化的工具,帮助深度理解与调试。
Minimax
$1.6
输入tokens/百万
$16
输出tokens/百万
1k
上下文长度
prithivMLmods
CodeV是基于Qwen2.5-VL-7B-Instruct微调得到的70亿参数视觉语言模型,通过监督微调(SFT)和基于工具感知策略优化(TAPO)的强化学习(RL)两阶段训练,旨在实现可靠、可解释的视觉推理。它将视觉工具表示为可执行的Python代码,并通过奖励机制确保工具使用与问题证据一致,解决了高准确率下工具调用不相关的问题。
open-thoughts
OpenThinker-Agent-v1-SFT 是基于 Qwen/Qwen3-8B 进行有监督微调(SFT)得到的智能体模型。它是 OpenThinker-Agent-v1 完整训练流程(SFT + RL)的第一阶段模型,专门针对智能体任务(如终端操作和代码修复)进行优化。
OpenMMReasoner
OpenMMReasoner是一个完全透明的两阶段多模态推理方案,采用监督微调(SFT)和强化学习(RL)训练。在SFT阶段构建了874K样本的冷启动数据集,RL阶段利用74K样本进一步提升能力,在多模态推理基准测试中表现出色。
OpenMMReasoner是一个完全透明的两阶段多模态推理方案,涵盖有监督微调(SFT)和强化学习(RL)。该方案通过精心构建高质量数据集,在多个多模态推理基准测试中超越了强大的基线模型,为未来大规模多模态推理研究奠定了坚实的实证基础。
allenai
Olmo 3 7B RL-Zero Math是Allen AI开发的专为数学推理任务优化的70亿参数语言模型,采用RL-Zero强化学习方法在数学数据集上进行训练,能有效提升数学推理能力。
Olmo 3 7B RL-Zero Mix是Allen AI开发的7B参数规模的语言模型,属于Olmo 3系列。该模型在Dolma 3数据集上进行预训练,在Dolci数据集上进行后训练,并通过强化学习优化数学、编码和推理能力。
Mungert
PokeeResearch-7B是由Pokee AI开发的70亿参数深度研究代理模型,结合了AI反馈强化学习(RLAIF)和强大的推理框架,能够在工具增强的大语言模型中实现可靠、对齐和可扩展的研究级推理,适用于复杂的多步骤研究工作流程。
PokeeAI
PokeeResearch-7B是由Pokee AI开发的70亿参数深度研究智能体,结合基于AI反馈的强化学习(RLAIF)与推理框架,能够执行复杂的多步骤研究工作流程,包括自我修正、验证和综合分析。
mlx-community
Apriel-1.5-15B-Thinker是一个专为图像理解与推理设计的150亿参数多模态模型,采用中期训练方法而非RLHF训练。本版本为适用于苹果芯片的MLX量化版本,具有内存占用小、启动速度快的特点。
MBZUAI-Paris
Frugal-Math-4B是一款针对数学推理优化的4B参数语言模型,通过强化学习验证奖励(RLVR)方法训练,能够在保持高准确性的同时生成简洁、可验证的数学解决方案,显著减少推理冗长性。
EpistemeAI
本模型基于GPT-OSS-20B,借助Unsloth强化学习框架进行微调,旨在优化推理效率,同时减少在从人类反馈中进行强化学习(RLHF)式训练期间出现的漏洞。微调过程着重于对齐的鲁棒性和效率,确保模型在不产生过多计算开销的情况下保持推理深度。
Jackrong
基于microsoft/phi-4(14B)基础模型的三阶段训练GRPO推理测试模型,通过SFT→RLHF→SFT流程微调,具备优秀的多步推理能力
allura-forge
MiMo是小米专为推理任务从头开始训练的大语言模型系列,通过优化预训练和后训练策略,在数学和代码推理任务上展现出卓越性能。项目开源了7B参数规模的多个版本,包括基础模型、SFT模型和RL模型。
shiviklabs
基于Qwen3-1.7B微调的版本,通过1-shot强化学习与可验证奖励(RLVR)方法增强了数学推理能力,在数学基准测试和编码任务中表现出色。
Franklin0
ReasonGen-R1是一个融合思维链推理的自回归图像生成模型,通过SFT和RL提升图像生成的逻辑性和质量。
zake7749
单体模型(Monomer)是一系列推理语言模型(RLMs)的集合,专注于中英文场景下的规划、设计和写作任务,提供清晰的分步推理轨迹。
unsloth
OLMo 2 1B指令版是基于OLMo-2-0425-1B-RLVR1模型的后训练变体,经过监督微调、DPO训练和RLVR训练,旨在实现多种任务的最先进性能。
XiaomiMiMo
MiMo-7B 是小米推出的专为推理任务设计的语言模型系列,包括基础模型、SFT模型和RL模型,在数学和代码推理任务上表现优异。
OLMo 2 1B RLVR 1 April 2025是基于allenai/OLMo-2-0425-1B-DPO模型的后训练变体,在多种特定数据集上进行了微调训练。该模型在数学推理、代码生成、指令跟随等多个任务中展现出了较好的性能,是一个专为研究和教育目的设计的1B参数规模的大语言模型。
OLMo 2 1B是基于allenai/OLMo-2-0425-1B-RLVR1模型的后训练变体,经过监督微调、DPO训练和RLVR训练,旨在实现多种任务的最先进性能。
OpenManus是一个无需邀请码即可实现各种想法的开源项目,由MetaGPT团队成员在3小时内构建完成。它提供了一个简单的实现,允许用户创建自己的智能代理,并支持多种语言和配置。项目欢迎建议、贡献和反馈,未来计划包括更好的规划、实时演示、回放功能、RL微调模型和全面的基准测试。
RLM MCP服务器是一个基于递归语言模型模式的大规模上下文处理工具,允许Claude代码通过外部变量处理超过1000万token的文本,避免直接将海量内容输入提示词。它通过加载、分块、子查询和聚合的流程,支持自动分析和程序化执行,可连接Claude API或本地Ollama进行免费推理。
一个基于R语言的MCP服务器,提供ggplot2数据可视化和R脚本执行功能,支持多种输出格式和Docker容器化运行。
RLM Tools是一个MCP服务器工具,为AI编程代理提供持久化沙箱环境,允许在服务器端探索和分析代码,仅将结论返回给模型,大幅减少上下文窗口占用和成本。