Best 最佳论文 AI Tools & Models - Premium 最佳论文 News

AI News

NeurIPS 2025 最佳论文揭晓：阿里通义千问靠“门控注意力”摘下中国唯一大奖

阿里巴巴通义千问团队在NeurIPS 2025获最佳论文奖，论文《Attention Gating Makes Better Foundation Models》提出“滑动门”机制，在标准注意力后添加可学习门控，动态筛选关键头和token参与下游计算。实验证明，1.7B稠密模型性能媲美15B MoE模型。本届大会投稿2万篇，录取率仅25%，竞争激烈，该论文是四篇获奖作品中唯一中国成果。

27.4k yesterday

DeepSeek下一代技术获ACL2025最佳论文奖，长文本处理效率提升11倍！

DeepSeek梁文锋博士团队与北大合作的论文获ACL2025最佳论文奖。该研究提出原生稀疏注意力(NSA)机制，通过压缩、选择性和滑动三条并行注意力分支，实现算法与硬件协同优化，将长文本处理速度提升11倍，性能超越传统全注意力模型。NSA支持100万tokens上下文长度，在64k文本处理中解码速度提升11.6倍，27B参数模型在多项基准测试中表现优异，为AI长文本处理开辟了新方向。

13.3k 3 days ago

DeepSeek发布大模型训练端到端论文，展示卓越工程深度

近日，DeepSeek发布了一篇关于大模型训练的最佳端到端技术论文，引发业界广泛关注。该论文全面阐述了DeepSeek在大模型研发中的技术突破，涵盖软件、硬件及混合优化方案，展现了其令人惊叹的工程深度。在**软件**层面，论文详细介绍了多头潜在注意力机制（MLA），显著降低推理过程中的内存占用;FP8混合精度训练通过低精度计算提升效率，同时保证数值稳定性;DeepEP通信库优化了专家并行(EP)通信，支持FP8低精度操作，加速MoE模型训练与推理;LogFMT对数浮点格式则通过均匀化激活分布，进一

15.8k yesterday

64页论文揭示AI模型排行榜黑幕：Llama4发布前私下测试27个版本，只取最佳成绩

近日，一篇名为《排行榜幻觉》的论文在学术界引发了广泛关注，尤其是对大型语言模型（LLM）领域中备受推崇的 Chatbot Arena 排行榜提出了严厉质疑。研究指出，排行榜的可信度因数据访问不平等、模型私下测试等问题而受到挑战。论文显示，一些大型科技公司可以在公开发布之前对多个模型版本进行私下测试。例如，Meta 在发布 Llama4之前测试了多达27个版本，然后只对外公布表现最佳的模型。这种 “最佳选择” 策略不仅导致了模型排行榜的膨胀，还可能误导用户对模型真实能力的判断。

66.4k yesterday