大模型智能体告别盲目堆叠！港中文团队发布SLIM框架，动态管理外部技能生命周期

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Jun 1, 2026

大模型智能体（LLM Agent）正在加速从“会聊天”向“会做事”的连续决策阶段演进，但如何高效管理智能体的外部能力正成为全行业亟待攻克的新课题。近日，香港中文大学团队在一篇名为《Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning》的论文中，正式提出了一种名为“SLIM”的动态技能生命周期管理框架。这一创新成果打破了以往行业盲目为智能体“堆积技能”的怪圈，为物理世界与虚拟世界的复杂任务落地提供了全新的解题思路。

在网页搜索、自动办公及具身机器人等复杂长时序场景中，智能体往往需要调用外部技能来处理易错和长尾步骤。然而，传统方法要么倾向于不断累积技能，导致检索噪声和上下文干扰剧增;要么追求“零技能推理”，试图将所有能力硬塞进模型参数，从而丢失了局部但关键的能力。针对这一痛点，SLIM框架将外部技能视作一个拥有生命周期的动态能力系统，让模型在强化学习的训练过程中，自主判断外部技能的去留与扩充。

SLIM的基本运行机制是一个精妙的闭环循环。在训练阶段，系统会基于当前状态精细化检索通用或任务专属技能，并利用GRPO算法更新智能体的决策策略。随后，系统通过独特的“留一法”（leave-one-skill-out）进行技能审计:通过临时禁用某个技能来评估其边际外部贡献。若禁用后表现明显下滑，则“保留”(Retain)该技能;若贡献长期处于低位，说明模型已吸纳该能力或其产生干扰，则让其“退休”(Retire);而面对持续失败的新场景，系统会通过“扩展”(Expand)机制从失败案例中总结并补足新技能。

实验结果表明，该框架在整体表现上平均超过了现有最佳对比方法7.1个百分点。在更偏动作执行、步骤复杂的ALFWorld家庭环境任务中，SLIM凭借精简且高效的外部技能管理，斩获了87.5%的成功率，远超强基线方法SkillRL的75.0%;而在更偏信息检索与推理的SearchQA任务中，SLIM同样表现出了强劲的竞争力，并验证了模型能够将部分搜索策略内化吸收的技术路径。

业内分析人士指出，SLIM的核心价值在于将外部技能库从固定的辅助工具，升维成了可与策略协同优化的训练对象。它不仅在技术层面上明确了“哪些能力该写入模型，哪些能力该留在外部”，更让大模型智能体学会了在复杂多变的环境中何时寻求外部支持。这种动态化的能力管理范式，无疑为下一阶段具身智能与大模型Agent走向大规模产业化应用奠定了扎实的理论与工程基础。

谷歌升级Gemini Enterprise:优化界面并推进Workspace连接器重构

谷歌正推进企业级AI助手Gemini Enterprise更新，主提示栏采用与消费者版一致的炫彩视觉设计，统一企业与个人用户体验，彰显其将企业AI与数亿用户Gemini生态对齐的战略。此外，Google Workspace连接器升级，部分用户需重新授权才能继续使用。

BrowseComp被刷到90%后，美团LongCat甩出LoHoSearch：前沿模型集体跌回三成出头

搜索智能体评测基准BrowseComp短期被“刷爆”，成绩从30%飙到90%而逐渐失效。7月17日，美团LongCat发布新基准LoHoSearch，基于含762万实体的维基百科知识图谱自动生成难题，意图将评测重新推入高难度区，重设搜索智能体能力标尺。

嫌whisper.cpp和ONNX不够用？Handy作者开源transcribe.cpp：60+转录模型、GPU加速、即插即用替代

本地语音转录开发者长期受困于多引擎维护：需同时适配whisper.cpp、ONNX和MLX，重复移植模型。7月19日，知名应用Handy作者sebjones发布新库transcribe.cpp v0.1.0，基于ggml打造，统一跨平台转录方案，并支持所有最新模型，直击碎片化痛点。

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

GEO 品牌全景分析

GEO 品牌得分检测

GEO 排名查询

GEO 排名监测

AI 对话问题挖掘

GEO 推广链接检测

站点AI友好度检测

GEO排名优化系统源码

GEO 排名优化服务

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

大模型API聚合平台

模型库

模型供应商

大模型排行榜

大模型API中转站检测

大模型选型对比

大模型费用计算器

大模型竞技场

模型个人电脑配置检测器

模型部署服务器配置计算器

大模型智能体告别盲目堆叠！港中文团队发布SLIM框架，动态管理外部技能生命周期

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

喊出"再来两周"的用户赢了：腾讯混元Hy3 限免延长到 8 月 5 日，295B MoE模型白嫖期续命

马斯克称2万亿参数大模型即将完成训练，或挑战Kimi K3性能

别再数Token了：OpenAI甩出AI时代记分卡，用"有用智能每美元"给CFO算清ROI

阿里云百炼上线HappyOyster1.0:支持实时交互的开放世界模型开启灰测

谷歌升级Gemini Enterprise:优化界面并推进Workspace连接器重构

腾讯混元Hy3限免活动延期至8月5日，WorkBuddy和CodeBuddy用户继续免费使用

BrowseComp被刷到90%后，美团LongCat甩出LoHoSearch：前沿模型集体跌回三成出头

杨植麟在GTC2026 摊牌：月之暗面把Adam、全注意力和残差连接全换了，而且全部开源

嫌whisper.cpp和ONNX不够用？Handy作者开源transcribe.cpp：60+转录模型、GPU加速、即插即用替代

昆仑万维把 2026 定为世界模型元年：Matrix-Game 3. 5 单卡实时生成，5B模型跑出20FPS

相关AI新闻推荐

喊出"再来两周"的用户赢了：腾讯混元Hy3 限免延长到 8 月 5 日，295B MoE模型白嫖期续命

马斯克称2万亿参数大模型即将完成训练，或挑战Kimi K3性能

别再数Token了：OpenAI甩出AI时代记分卡，用"有用智能每美元"给CFO算清ROI

阿里云百炼上线HappyOyster1.0:支持实时交互的开放世界模型开启灰测

谷歌升级Gemini Enterprise:优化界面并推进Workspace连接器重构

腾讯混元Hy3限免活动延期至8月5日，WorkBuddy和CodeBuddy用户继续免费使用

BrowseComp被刷到90%后，美团LongCat甩出LoHoSearch：前沿模型集体跌回三成出头

杨植麟在GTC2026 摊牌：月之暗面把Adam、全注意力和残差连接全换了，而且全部开源

嫌whisper.cpp和ONNX不够用？Handy作者开源transcribe.cpp：60+转录模型、GPU加速、即插即用替代

昆仑万维把 2026 定为世界模型元年：Matrix-Game 3. 5 单卡实时生成，5B模型跑出20FPS