DeepSeek V4与姚顺雨新混元模型将于2026年4月发布。DeepSeek V4由梁文锋主导,是多模态大模型,在代码能力和长期记忆方面有显著提升,专注于视觉内容处理和AI搜索能力,并探索“条件记忆”机制。
DeepSeek团队推出Engram模块,为稀疏大语言模型引入“条件记忆轴”,旨在解决传统Transformer处理重复知识时计算资源浪费的问题。该模块作为混合专家模型的补充,将N-gram嵌入技术融入模型,提升处理重复模式的效率。
香港大学与快手可灵团队联合发表论文,提出"Context-as-Memory"方法,通过将历史上下文作为"记忆"载体,利用context learning技术学习上下文条件,成功解决长视频生成中场景一致性的核心难题,实现前后场景的高度统一。
南洋理工大学等机构联合开源"WORLDMEM"长记忆世界模型,突破传统方法限制,通过创新记忆机制存储场景信息,实现虚拟环境中长期一致性。模型采用条件扩散变换器架构,支持动态更新记忆库,确保场景连贯性,并能响应动作指令。该技术显著提升虚拟现实体验,为未来应用提供支持。
Sensetime
$8
Input tokens/M
$32
Output tokens/M
128
Context Length
Baidu
-
8