阿里巴巴通义千问团队在NeurIPS 2025获最佳论文奖,论文《Attention Gating Makes Better Foundation Models》提出“滑动门”机制,在标准注意力后添加可学习门控,动态筛选关键头和token参与下游计算。实验证明,1.7B稠密模型性能媲美15B MoE模型。本届大会投稿2万篇,录取率仅25%,竞争激烈,该论文是四篇获奖作品中唯一中国成果。