中国推出多模态AI模型DeepEyesV2,能分析图像、执行代码和网络搜索。它通过智能利用外部工具,而非依赖训练数据,性能超越大型模型。早期实验显示,仅靠强化学习无法稳定完成多模态任务,模型曾尝试编写Python代码分析图像但效果不佳。
Meta与新加坡国立大学合作开发SPICE强化学习框架,让两个AI代理相互对抗,在无人类监督下自我提升能力。该框架处于概念验证阶段,有望为未来动态适应环境的AI系统奠定基础,增强应对现实世界不可预测性的稳健性。
北京大学与兔展智能联合推出UniWorld-V2图像编辑模型,基于创新的UniWorld-R1强化学习框架,首次将策略优化应用于图像编辑。该模型在细节控制上超越Nano Banana,对中文指令理解精准,显著提升编辑准确性与灵活性,突破传统监督学习局限。
上海AgiBot公司突破工业自动化技术,仅需10分钟即可教会机器人完成复杂制造任务。该技术融合人机远程操作与强化学习,工人先远程引导,AI系统随后接管优化,实现自我改进,有望重塑全球制造业生产方式。
一种无需搜索即可激励 LLM 搜索能力的框架。
一个高效的强化学习框架,用于训练推理和搜索引擎调用的语言模型。
利用强化学习提升扩散大语言模型的推理能力。
一个开放源代码的 14B 参数编程模型,具备高效的代码推理能力。
deepseek
$3.96
Input tokens/M
$15.77
Output tokens/M
128k
Context Length
$0.86
$1.3
-
$0.72
$2.88
google
8.2k
4.1k
meta
Smith-3
这是一个专为圣西蒙大学科学与技术学院学生设计的微调AI模型,集成在TecnoTime应用程序中,帮助学生保持学习组织性、提高学术连续性,通过结构化通知和激励信息强化学习习惯。
oberbics
本模型是基于Meta的Llama-3.1架构微调的文本生成模型,使用TRL库和GRPO(Group Relative Policy Optimization)方法进行强化学习训练,专门针对论证生成任务进行了优化。
BAAI
Emu3.5是北京智源人工智能研究院开发的原生多模态模型,能够跨视觉和语言联合预测下一状态,实现连贯的世界建模和生成。通过端到端预训练和大规模强化学习后训练,在多模态任务中展现出卓越性能。
moonshotai
Kimi Linear是一种混合线性注意力架构,在各种场景下包括短、长上下文以及强化学习扩展机制中,均优于传统的全注意力方法。它能有效解决传统注意力机制在长上下文任务中效率低下的问题,为自然语言处理等领域带来更高效的解决方案。
Kimi Linear是一种高效混合线性注意力架构,在短上下文、长上下文和强化学习场景中均优于传统全注意力方法。它通过Kimi Delta Attention (KDA)机制优化注意力计算,显著提升性能和硬件效率,特别擅长处理长达100万令牌的长上下文任务。
Mungert
PokeeResearch-7B是由Pokee AI开发的70亿参数深度研究代理模型,结合了AI反馈强化学习(RLAIF)和强大的推理框架,能够在工具增强的大语言模型中实现可靠、对齐和可扩展的研究级推理,适用于复杂的多步骤研究工作流程。
mradermacher
这是PRIME-RL/P1-30B-A3B模型的静态量化版本,是一个300亿参数的大语言模型,专门针对物理、强化学习、竞赛推理等领域优化,支持英语和多语言处理。
onnx-community
Granite-4.0-1B是IBM开发的轻量级指令模型,基于Granite-4.0-1B-Base微调而成。该模型结合了开源指令数据集和内部合成数据集,采用监督微调、强化学习和模型合并等技术开发,适合设备端部署和研究用例。
Granite-4.0-350M是IBM开发的轻量级指令模型,基于Granite-4.0-350M-Base微调而成。该模型结合了开源指令数据集和内部合成数据集,采用监督微调、强化学习和模型融合等技术开发,具备强大的指令跟随能力,特别适合设备端部署和研究场景。
Nanbeige
Nanbeige4-3B-Thinking是第四代Nanbeige大语言模型家族中的30亿参数推理模型,通过提升数据质量和训练方法实现了先进的推理能力。该模型在数学、科学、创意写作、工具使用等多个领域表现出色,支持多阶段课程学习和强化学习训练。
mlfoundations-cua-dev
OLGA是基于Qwen3-VL-30B-A3B-Instruct构建的在线强化学习定位代理,采用33亿激活参数的专家混合模型。通过结合现有数据集、新数据收集、自动过滤和在线强化学习的新数据配方进行训练,在开源模型中实现了先进的定位性能。
PokeeAI
PokeeResearch-7B是由Pokee AI开发的70亿参数深度研究智能体,结合基于AI反馈的强化学习(RLAIF)与推理框架,能够执行复杂的多步骤研究工作流程,包括自我修正、验证和综合分析。
nvidia
Qwen3-Nemotron-32B-RLBFF是基于Qwen/Qwen3-32B微调的大语言模型,通过强化学习反馈技术显著提升了模型在默认思维模式下生成回复的质量。该模型在多个基准测试中表现出色,同时保持较低的推理成本。
Kwaipilot
KAT-Dev-72B-Exp是一款用于软件工程任务的720亿参数开源大语言模型,在SWE-Bench Verified基准测试中达到74.6%的准确率,是KAT-Coder模型的实验性强化学习版本。
ibm-granite
Granite-4.0-350M是IBM开发的轻量级指令模型,基于Granite-4.0-350M-Base微调而成。该模型结合了开源指令数据集和内部合成数据集,采用监督微调、强化学习和模型合并技术开发,具备强大的指令跟随能力和工具调用功能。
Granite-4.0-1B是IBM开发的轻量级指令模型,基于Granite-4.0-1B-Base进行微调,结合了开源指令数据集和内部合成数据集,采用监督微调、强化学习和模型合并技术开发而成。
Granite-4.0-H-350M是IBM开发的轻量级指令模型,基于Granite-4.0-H-350M-Base微调而成。该模型结合了开源指令数据集和内部合成数据集,采用监督微调、强化学习和模型合并等多种技术开发,具备强大的指令跟随能力和多语言支持。
Granite-4.0-H-1B是IBM Granite团队开发的轻量级指令模型,基于Granite-4.0-H-1B-Base模型,通过监督微调、强化学习和模型融合等技术优化得到。该模型具有强大的指令遵循能力,适合设备端部署和研究用例。
通义深度研究30B是一款具有300亿参数的大语言模型,专为长周期、深度信息搜索任务设计。该模型在多个智能搜索基准测试中表现出色,采用创新的量化方法提升性能,支持智能预训练、监督微调与强化学习。
prithivMLmods
Qwen3-4B-SafeRL是Qwen3-4B模型的安全对齐版本,通过强化学习训练增强模型抵御有害或对抗性提示的鲁棒性。该版本采用混合奖励函数优化,平衡安全性、有用性和最小化不必要拒绝三个目标。