DeepSeek-V3.2的DSA稀疏注意力技术：在TPU平台上的效能革命与适配实践

郁兰娜 · 2 小时前

9 月 29 日，DeepSeek 最新发布的 DeepSeek-V3.2-Exp 模型引入了自主研发的 DeepSeek Sparse Attention（DSA）稀疏注意力机制，在几乎不影响模型性能的前提下，实现了长文本训练和推理效率的大幅提升。本文旨在深入解析 DSA 的技术原理，并重点探讨中昊芯英「刹那®」TPU 平台如何凭借其片上缓存与高度并行矩阵计算单元，在 Lightning Indexer 键缓存管理、突破「内存墙」瓶颈、提升长文本处理效率及降低推理成本等方面取得的显著收益与适配成果。
1.DSA稀疏注意力机制的技术突破
1.1 背景：如何突破传统注意力机制的瓶颈
标准自注意力（Self-Attention）机制是 Transformer 架构的核心，但其计算和内存复杂度均与序列长度 L 的平方 O(L²) 成正比。当处理长文本时，这种二次方增长的复杂度会迅速成为性能瓶颈，导致显存耗尽和计算延迟过高，限制了模型处理长序列的能力。为克服这一限制，学术界与工业界提出了多种稀疏注意力方案（即仅对部分 token 进行注意力计算），如滑动窗口注意力、块稀疏注意力、可学习稀疏模式、低秩近似等。稀疏注意力可以显著减少计算、内存开销，并提升吞吐或降低成本。DeepSeek-V3.2-Exp的核心武器DeepSeek 稀疏注意力（DSA），首次实现了细粒度稀疏注意力机制，在几乎不影响模型输出效果的前提下，实现了长文本训练和推理效率的大幅提升。
论文地址：https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
1.2 DeepSeek稀疏注意力（DSA）核心架构
DeepSeek-V3.2-Exp 与上一版本DeepSeek-V3.1-Terminus相比，核心创新在于引入了DeepSeek 稀疏注意力（DSA）。DSA 通过筛选与当前任务高度相关的文本，而非对全部历史 token 进行全量注意力计算，从而显著提升运算效率。
DSA 主要包含两项关键技术：闪电索引器（Lightning Indexer）和细粒度稀疏注意力（Fine-grained Sparse Attention）。整体实现基于 MLA 架构，主要流程可参考 Fig.1:

Fig.1 DeepSeek-V3.2-Exp 基于MLA的注意力架构图，其中绿色部分显示了DSA如何根据索引器选择top-k键值条目
1.3 DSA两大核心组件
1.闪电索引器（Lightning Indexer）
闪电索引器负责快速、高效地为每个查询（Query）从海量候选的键（Key）中，识别出最可能相关的 Top-k 个键。闪电索引器的核心目标是以极低的计算开销完成相关键的「海选」。其实现方式如下：
低维投影：将原始高维度的 Query 和 Key 向量，通过一个独立的、可学习的线性层投影到极低的维度（例如128维）。这使得后续的相似度计算变得异常高效。
高效相似度计算：使用低维投影后的向量 qI 和 kI 计算索引分数，这也是索引器的核心作用，也即为每个查询 token（query token）计算「与前文每个 token 的相关性得分」，即索引得分 Iₜ,ₛ，公式如下:

论文指出：选择 ReLU 激活函数的主要考量是其计算上的高吞吐量（throughput），因为与 Softmax 等需要全局归一化的函数相比，ReLU 仅需进行一次简单的阈值操作，计算成本低。
2.细粒度稀疏注意力（Fine-grained Sparse Attention）
基于索引器输出的分数，token选择机制仅保留 Top-k 索引分数对应的键值对（KV），再通过注意力机制计算最终输出 uₜ（仅基于这些筛选后的「关键键值对」计算注意力）。具体工作流程为：

1). 为每个查询token ht计算索引分数{
来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册

DeepSeek-V3.2的DSA稀疏注意力技术：在TPU平台上的效能革命与适配实践

相关帖子

签约作者

DeepSeek-V3.2的DSA稀疏注意力技术：在TPU平台上的效能革命与适配实践

相关帖子

相关推荐

签约作者