DeepSeek 推出 NSA 技術:加速長上下文訓練與推理
在人工智能領域,DeepSeek 團隊於近日發佈了最新研究成果,推出了一種名爲 NSA(Native Sparse Attention)的創新稀疏注意力機制。這項技術的核心目標是提升長上下文訓練和推理的速度,特別是針對現代硬件進行了優化,使得訓練和推理的效率大幅提升。NSA 技術的推出,爲人工智能模型的訓練帶來了顯著的變化。首先,它通過一系列針對現代計算硬件特性的設計優化,顯著提升了推理速度,並有效降低了預訓練的成本。更重要的是,在提升速度和降低成本的同時,NSA 仍然保持了高水平的模型