登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
签到
每天签到奖励2-10圆
导读
排行榜
TG频道
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
VIP申请
VIP网盘
网盘
联系我们
发帖说明
每日签到
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
DeepSeek-V3.2的DSA稀疏注意力技术:在TPU平台上的效能 ...
DeepSeek-V3.2的DSA稀疏注意力技术:在TPU平台上的效能革命与适配实践
[ 复制链接 ]
郁兰娜
2 小时前
9 月 29 日,DeepSeek 最新发布的 DeepSeek-V3.2-Exp 模型引入了自主研发的 DeepSeek Sparse Attention(DSA)稀疏注意力机制,在几乎不影响模型性能的前提下,实现了长文本训练和推理效率的大幅提升。本文旨在深入解析 DSA 的技术原理,并重点探讨中昊芯英「刹那®」TPU 平台如何凭借其片上缓存与高度并行矩阵计算单元,在 Lightning Indexer 键缓存管理、突破「内存墙」瓶颈、提升长文本处理效率及降低推理成本等方面取得的显著收益与适配成果。
1.DSA稀疏注意力机制的技术突破
1.1 背景:如何突破传统注意力机制的瓶颈
标准自注意力(Self-Attention)机制是 Transformer 架构的核心,但其计算和内存复杂度均与序列长度 L 的平方 O(L²) 成正比。当处理长文本时,这种二次方增长的复杂度会迅速成为性能瓶颈,导致显存耗尽和计算延迟过高,限制了模型处理长序列的能力。为克服这一限制,学术界与工业界提出了多种稀疏注意力方案(即仅对部分 token 进行注意力计算),如滑动窗口注意力、块稀疏注意力、可学习稀疏模式、低秩近似等。稀疏注意力可以显著减少计算、内存开销,并提升吞吐或降低成本。DeepSeek-V3.2-Exp的核心武器DeepSeek 稀疏注意力(DSA),首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。
论文地址:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
1.2 DeepSeek稀疏注意力(DSA)核心架构
DeepSeek-V3.2-Exp 与上一版本DeepSeek-V3.1-Terminus相比,核心创新在于引入了DeepSeek 稀疏注意力(DSA)。DSA 通过筛选与当前任务高度相关的文本,而非对全部历史 token 进行全量注意力计算,从而显著提升运算效率。
DSA 主要包含两项关键技术:闪电索引器(Lightning Indexer)和细粒度稀疏注意力(Fine-grained Sparse Attention)。整体实现基于 MLA 架构,主要流程可参考 Fig.1:
Fig.1 DeepSeek-V3.2-Exp 基于MLA的注意力架构图,其中绿色部分显示了DSA如何根据索引器选择top-k键值条目
1.3 DSA两大核心组件
1.闪电索引器(Lightning Indexer)
闪电索引器负责快速、高效地为每个查询(Query)从海量候选的键(Key)中,识别出最可能相关的 Top-k 个键。闪电索引器的核心目标是以极低的计算开销完成相关键的「海选」。其实现方式如下:
低维投影:将原始高维度的 Query 和 Key 向量,通过一个独立的、可学习的线性层投影到极低的维度(例如128维)。这使得后续的相似度计算变得异常高效。
高效相似度计算:使用低维投影后的向量 qI 和 kI 计算索引分数,这也是索引器的核心作用,也即为每个查询 token(query token)计算「与前文每个 token 的相关性得分」,即索引得分 Iₜ,ₛ,公式如下:
论文指出:选择 ReLU 激活函数的主要考量是其计算上的高吞吐量(throughput),因为与 Softmax 等需要全局归一化的函数相比,ReLU 仅需进行一次简单的阈值操作,计算成本低。
2.细粒度稀疏注意力(Fine-grained Sparse Attention)
基于索引器输出的分数,token选择机制仅保留 Top-k 索引分数对应的键值对(KV),再通过注意力机制计算最终输出 uₜ(仅基于这些筛选后的「关键键值对」计算注意力)。具体工作流程为:
1). 为每个查询token ht计算索引分数{
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
DeepSeek
适配
革命
效能
台上
相关帖子
如何做研发效能提升
deepseek-v3.2-exp: 节前发版之打工人的悲鸣
GLM-4.6与DeepSeek-V3.2-Exp发布
了解DeepSeek V3.2和Claude Sonnet 4.5
SpringAI接入DeepSeek大模型实现流式对话
解读 DeepSeek 底层原理, 超复杂(图解+秒懂+史上最全)
DeepSeek画原型图实操:从需求到可编辑原型的完整流程
互联网公司研发效能/工程效率团队建设和规划
看懂这5幅图,研发效能分析和改进就容易了
一文看懂研发效能提升
vip免费申请,1年只需15美金$
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
如何做研发效能提升
0
663
啖曼烟
2025-09-28
业界
deepseek-v3.2-exp: 节前发版之打工人的悲鸣
0
189
静轾
2025-09-29
科技
GLM-4.6与DeepSeek-V3.2-Exp发布
0
307
迎脾
2025-09-30
业界
了解DeepSeek V3.2和Claude Sonnet 4.5
1
233
胥望雅
2025-09-30
业界
SpringAI接入DeepSeek大模型实现流式对话
0
662
幽淆
2025-10-01
安全
解读 DeepSeek 底层原理, 超复杂(图解+秒懂+史上最全)
1
440
旌磅箱
2025-10-05
安全
DeepSeek画原型图实操:从需求到可编辑原型的完整流程
0
432
钱匾
2025-10-06
安全
互联网公司研发效能/工程效率团队建设和规划
0
1005
柴古香
2025-10-07
安全
看懂这5幅图,研发效能分析和改进就容易了
0
300
醋辛
2025-10-07
安全
一文看懂研发效能提升
0
748
搁胱
2025-10-12
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
郁兰娜
2 小时前
关注
0
粉丝关注
18
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
anyue1937
9994888
dage888
999994
3934307807
993678
4
富账慕
10007
5
刎唇
9993
6
柴古香
9989
7
匝抽
9986
8
孙淼淼
9989
9
筒濂
9977
10
崔瑜然
9984
查看更多