清华大学等高校联合推出MotionTrans框架,实现机器人仅通过观察人类动作就能学习新技能,无需示范。这突破了传统依赖大量演示数据的高成本训练方式,显著提升机器人学习效率。
小米与北京大学联合在arXiv发布学术论文,通讯作者罗福莉曾因雷军千万年薪招募受关注。但论文作者名单未显示她隶属小米大模型团队。罗福莉为1995年出生,本科毕业于北师大计算机专业,现于北大计算语言学研究所。
DeepSeek梁文锋博士团队与北大合作的论文获ACL2025最佳论文奖。该研究提出原生稀疏注意力(NSA)机制,通过压缩、选择性和滑动三条并行注意力分支,实现算法与硬件协同优化,将长文本处理速度提升11倍,性能超越传统全注意力模型。NSA支持100万tokens上下文长度,在64k文本处理中解码速度提升11.6倍,27B参数模型在多项基准测试中表现优异,为AI长文本处理开辟了新方向。
南洋理工大学等机构联合开源"WORLDMEM"长记忆世界模型,突破传统方法限制,通过创新记忆机制存储场景信息,实现虚拟环境中长期一致性。模型采用条件扩散变换器架构,支持动态更新记忆库,确保场景连贯性,并能响应动作指令。该技术显著提升虚拟现实体验,为未来应用提供支持。
Mungert
FairyR1-32B是由北大DS-LAB开发的高效大语言模型,基于DeepSeek-R1-Distill-Qwen-32B,通过'蒸馏-融合'创新流程实现高性能与低成本推理的平衡。