阿里巴巴通義千問團隊在NeurIPS 2025獲最佳論文獎,論文《Attention Gating Makes Better Foundation Models》提出“滑動門”機制,在標準注意力後添加可學習門控,動態篩選關鍵頭和token參與下游計算。實驗證明,1.7B稠密模型性能媲美15B MoE模型。本屆大會投稿2萬篇,錄取率僅25%,競爭激烈,該論文是四篇獲獎作品中唯一中國成果。