DeepSeek 推出 NSA 技术:加速长上下文训练与推理
在人工智能领域,DeepSeek 团队于近日发布了最新研究成果,推出了一种名为 NSA(Native Sparse Attention)的创新稀疏注意力机制。这项技术的核心目标是提升长上下文训练和推理的速度,特别是针对现代硬件进行了优化,使得训练和推理的效率大幅提升。NSA 技术的推出,为人工智能模型的训练带来了显著的变化。首先,它通过一系列针对现代计算硬件特性的设计优化,显著提升了推理速度,并有效降低了预训练的成本。更重要的是,在提升速度和降低成本的同时,NSA 仍然保持了高水平的模型