拨云见日：Native Sparse Attention 如何重塑长上下文大模型效率边界

翻身AI挖掘机

发布于 2026-06-22 16:22:14

1360

Native Sparse Attention ：如何重塑长上下文大模型效率边界 ✨

2025年计算语言学协会年会（ACL）的年度最佳论文奖项，DeepSeek与北京大学等机构联合呈现的《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》（以下简称NSA）脱颖而出，斩获殊荣。

这不仅是对DeepSeek在基础模型研究领域深厚积累的肯定，更预示着长上下文建模效率的未来走向。

长上下文的困境

Transformer架构中Attention机制对全局依赖的捕捉，赋予了LLM惊人的理解与生成能力。然而，这种"无差别"的全局关注也带来了显著的计算复杂度——其计算量与序列长度的平方成正比。

当序列长度从几千扩展到几十万甚至上百万时，计算资源需求呈指数级爆炸，导致训练成本高昂、推理延迟居高不下。

稀疏注意力（Sparse Attention）应运而生，旨在通过只计算"关键"的注意力对来削减计算量。然而，过往方法常陷入"高效推理的幻觉"和"可训练性之谜"两大困境。

"高效推理的幻觉"：许多稀疏注意力方法理论上能大幅减少计算量，但实际部署时难以转化为显著的端到端加速。原因在于分散的内存访问模式与现代LLM普遍采用的MQA/GQA架构冲突，无法充分利用硬件并行能力。

"可训练性之谜"：大多数稀疏注意力方法为推理设计，预训练后以"后处理"方式引入稀疏性，导致模型性能下降。一些方法中的离散操作导致计算图不连续，阻碍梯度回传；另一些虽理论可训练，但非连续内存访问模式使其无法利用FlashAttention等高效算子。

正是基于对这些痛点的深刻洞察，DeepSeek提出了NSA，旨在构建一种"原生"的、从训练到推理全生命周期都高效的稀疏注意力机制。

正如论文中图1 (Figure 1) 所展示的，NSA不仅在通用基准、长上下文任务和推理任务上保持甚至超越了全注意力模型的性能，更在64k序列长度下实现了解码、前向传播和反向传播的显著加速，最高可达11.6倍。💡

NSA的精妙设计

NSA的核心在于其动态分层稀疏策略，巧妙地将注意力机制分解为三个并行分支，分别处理不同粒度的上下文信息。这就像人类阅读长篇文献时，会先"粗读"摘要把握主旨，再"精读"关键段落，同时"强记"最近读过的内容。

全局视野：Token Compression

通过将连续的Key和Value序列聚合为"压缩Token"（Compressed Tokens），大幅减少需要计算注意力的Key/Value数量。每隔一定步长（stride）对一个固定长度的块（block）进行压缩，生成代表该块信息的压缩Key和Value。这种压缩通过可学习的MLP实现，并引入块内位置编码。

局部聚焦：Token Selection

NSA采用Blockwise Selection，利用压缩Token分支中产生的中间注意力分数来计算每个选择块的重要性得分。得分最高的Top-N个块中的所有Token将被保留。这种设计与现代GPU的内存访问模式高度契合，能够实现连续的内存读取，充分利用Tensor Core的计算能力。

如论文中图8 (Figure 8) 所示，注意力分数在空间上往往呈现连续性。