腾讯发布Training-Free GRPO技术,通过外部知识库替代参数微调,在模型参数冻结状态下实现性能优化。该方法将经验知识转化为token级先验信息,显著降低训练成本,在DeepSeek-V3.1-Terminus模型上达到与昂贵微调相当的提升效果。
DeepSeek发布开源模型DeepSeek-V3.1-Terminus,修复了语言不一致和异常字符问题,优化了编程与搜索智能体性能。基准测试显示该模型在非智能体类任务中表现优异。