登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
DeepSeek-V3.2的DSA稀疏注意力技术:在TPU平台上的效能 ...
DeepSeek-V3.2的DSA稀疏注意力技术:在TPU平台上的效能革命与适配实践
[ 复制链接 ]
郁兰娜
2025-10-12 15:15:00
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
9 月 29 日,DeepSeek 最新发布的 DeepSeek-V3.2-Exp 模型引入了自主研发的 DeepSeek Sparse Attention(DSA)稀疏注意力机制,在几乎不影响模型性能的前提下,实现了长文本训练和推理效率的大幅提升。本文旨在深入解析 DSA 的技术原理,并重点探讨中昊芯英「刹那®」TPU 平台如何凭借其片上缓存与高度并行矩阵计算单元,在 Lightning Indexer 键缓存管理、突破「内存墙」瓶颈、提升长文本处理效率及降低推理成本等方面取得的显著收益与适配成果。
1.DSA稀疏注意力机制的技术突破
1.1 背景:如何突破传统注意力机制的瓶颈
标准自注意力(Self-Attention)机制是 Transformer 架构的核心,但其计算和内存复杂度均与序列长度 L 的平方 O(L²) 成正比。当处理长文本时,这种二次方增长的复杂度会迅速成为性能瓶颈,导致显存耗尽和计算延迟过高,限制了模型处理长序列的能力。为克服这一限制,学术界与工业界提出了多种稀疏注意力方案(即仅对部分 token 进行注意力计算),如滑动窗口注意力、块稀疏注意力、可学习稀疏模式、低秩近似等。稀疏注意力可以显著减少计算、内存开销,并提升吞吐或降低成本。DeepSeek-V3.2-Exp的核心武器DeepSeek 稀疏注意力(DSA),首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。
论文地址:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
1.2 DeepSeek稀疏注意力(DSA)核心架构
DeepSeek-V3.2-Exp 与上一版本DeepSeek-V3.1-Terminus相比,核心创新在于引入了DeepSeek 稀疏注意力(DSA)。DSA 通过筛选与当前任务高度相关的文本,而非对全部历史 token 进行全量注意力计算,从而显著提升运算效率。
DSA 主要包含两项关键技术:闪电索引器(Lightning Indexer)和细粒度稀疏注意力(Fine-grained Sparse Attention)。整体实现基于 MLA 架构,主要流程可参考 Fig.1:
Fig.1 DeepSeek-V3.2-Exp 基于MLA的注意力架构图,其中绿色部分显示了DSA如何根据索引器选择top-k键值条目
1.3 DSA两大核心组件
1.闪电索引器(Lightning Indexer)
闪电索引器负责快速、高效地为每个查询(Query)从海量候选的键(Key)中,识别出最可能相关的 Top-k 个键。闪电索引器的核心目标是以极低的计算开销完成相关键的「海选」。其实现方式如下:
低维投影:将原始高维度的 Query 和 Key 向量,通过一个独立的、可学习的线性层投影到极低的维度(例如128维)。这使得后续的相似度计算变得异常高效。
高效相似度计算:使用低维投影后的向量 qI 和 kI 计算索引分数,这也是索引器的核心作用,也即为每个查询 token(query token)计算「与前文每个 token 的相关性得分」,即索引得分 Iₜ,ₛ,公式如下:
论文指出:选择 ReLU 激活函数的主要考量是其计算上的高吞吐量(throughput),因为与 Softmax 等需要全局归一化的函数相比,ReLU 仅需进行一次简单的阈值操作,计算成本低。
2.细粒度稀疏注意力(Fine-grained Sparse Attention)
基于索引器输出的分数,token选择机制仅保留 Top-k 索引分数对应的键值对(KV),再通过注意力机制计算最终输出 uₜ(仅基于这些筛选后的「关键键值对」计算注意力)。具体工作流程为:
1). 为每个查询token ht计算索引分数{
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
DeepSeek
适配
革命
效能
台上
相关帖子
Tauri2.0-DeepSeek电脑端Ai对话|tauri2+vite6+deepseek流式ai聊天系统
QCS8550运行ModelFarm上的DeepSeek-R1-Distill-Qwen-7B模型
DeepSeek-OCR:让 AI “一眼看懂” 的黑科技
移动端h5适配方案
前沿速览:TrafficVLM、DeepSeek-Terminus、Qwen3-Omni
一键激活 JetBrains 全家桶!适配 Win/Linux/Mac三系统通用(实测真实有效)
革命你的 Git 提交消息 - GIM 1.8.0 发布了!
某豪猪发的 “跑通了!Deepseek 自动生成测试用例,太牛了!”
基于DeepSeek-R1 15b微调训练自主的领域大模型,附带工程代码
DeepSeek-V3.2 Speciale介绍
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
Tauri2.0-DeepSeek电脑端Ai对话|tauri2+vite6+deepseek流式ai聊天系统
5
84
邹语彤
2025-10-13
安全
QCS8550运行ModelFarm上的DeepSeek-R1-Distill-Qwen-7B模型
1
854
亢安芙
2025-10-15
安全
DeepSeek-OCR:让 AI “一眼看懂” 的黑科技
2
976
饮邺谲
2025-10-21
安全
移动端h5适配方案
4
304
闾丘婉奕
2025-10-31
业界
前沿速览:TrafficVLM、DeepSeek-Terminus、Qwen3-Omni
0
726
支智敏
2025-11-01
业界
一键激活 JetBrains 全家桶!适配 Win/Linux/Mac三系统通用(实测真实有效)
0
182
晌集涟
2025-11-06
业界
革命你的 Git 提交消息 - GIM 1.8.0 发布了!
1
259
姚望舒
2025-11-14
科技
某豪猪发的 “跑通了!Deepseek 自动生成测试用例,太牛了!”
1
489
染罕习
2025-11-17
业界
基于DeepSeek-R1 15b微调训练自主的领域大模型,附带工程代码
1
995
稿辏付
2025-11-18
科技
DeepSeek-V3.2 Speciale介绍
0
15
墨佳美
2025-12-01
回复
(2)
馏栩梓
2025-10-17 08:02:42
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
很好很强大 我过来先占个楼 待编辑
谭皎洁
7 天前
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
谢谢楼主提供!
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
郁兰娜
7 天前
关注
0
粉丝关注
18
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
anyue1937
9994893
kk14977
6845355
3934307807
991122
4
xiangqian
638210
5
宋子
9987
6
闰咄阅
9991
7
刎唇
9993
8
俞瑛瑶
9998
9
蓬森莉
9952
10
匝抽
9986
查看更多