探秘Transformer系列之（28）--- DeepSeek MLA

龙正平 发表于 2025-6-2 21:32:30

探秘Transformer系列之（28）--- DeepSeek MLA

目录

[*]探秘Transformer系列之（28）--- DeepSeek MLA

[*]0x00 概述
[*]0x01 原理

[*]1.1 问题
[*]1.2 当前状况
[*]1.3 改进思路

[*]1.3.1 增强信息压缩能力

[*]思路
[*]方案
[*]问题

[*]1.3.2 丰富信息表达

[*]思路
[*]方案

[*]1.3.2 解决位置编码冲突

[*]1.4 架构图 & 流程
[*]1.5 代码

[*]0x02 核心要点

[*]2.1 低秩KV联合压缩

[*]2.1.1 低秩分解
[*]2.1.2 思路
[*]2.1.3 向下投影
[*]2.1.4 向上投影
[*]null
[*]2.1.5 完整过程

[*]2.2 权重吸收

[*]2.2.1 当前状态
[*]2.2.2 权重吸收
[*]2.2.3 推导

[*]KQ合并
[*]VO合并
[*]结合

[*]2.2.4 讨论

[*]训练
[*]MHA
[*]不合并

[*]2.3 解耦RoPE

[*]2.3.1 RoPE背景
[*]2.3.2 问题

[*]无法直接应用到低秩压缩
[*]与权重吸收不兼容

[*]2.3.3 解决方案
[*]2.3.5 和权重吸收结合

[*]2.4 资源占用

[*]2.4.1 参数量
[*]2.4.2 内存占用
[*]2.4.3 计算量
[*]2.4.4 信息转移

[*]2.5 并行

[*]0x03 计算过程

[*]3.1 公式
[*]3.2 原始流程
[*]3.3 吸收

[*]3.3.1 过程
[*]3.3.2 吸收结果
[*]3.3.3 MQA形式

[*]0x04 代码

[*]4.1 配置
[*]4.2 定义
[*]4.3 操作Q

[*]4.3.1 变量定义
[*]4.3.2 变量操作

[*]4.4 操作KV

[*]4.4.1 变量定义
[*]4.4.2 变量操作

[*]4.5 注意力操作

[*]4.5.1 变量定义
[*]4.5.2 变量操作

[*]4.6 前向传播
[*]4.7 V3 代码

[*]0x05 优化代码

[*]5.1 压缩优化
[*]5.2 权重吸收

[*]5.2.1 absorbed_cache_compressed.py

[*]\(W^{UK}\)
[*]\(W^{UV}\)

[*]5.2.2 Move Elision
[*]5.2.3 Materializing Projection Matrices

[*]5.3 融合算子
[*]5.4 矩阵乘的重排序（增补@2025-04-19）

[*]0x06 转换

[*]6.1 GQA

[*]6.1.1 思路
[*]6.1.2 方案

[*]6.2 MHA

[*]6.2.1 partial-RoPE

[*]MHA
[*]拆解

[*]6.2.2 低秩近似

[*]0xFF 参考

0x00 概述

MLA（Multi-head Latent Attention / 多头潜在注意力）的基本思想是将注意力输入\(h_t\) 压缩成一个低维的潜在向量 \(c^{KV}_t\) ，维度为 \(d_c\)，且 \(d_c\) 远小于原始的维度（\(h_nd_h\)）。在需要计算注意力时，可将这个潜在向量 \(c^{KV}_t\) 映射回高维空间。因此，只需要存储潜在向量 \(c^{KV}_t\) ，就可以显著减少内存的占用。
这个过程可以通过以下公式更正式地进行描述。其中 \(c^{KV}_t\) 表示潜在向量；\(W^{DKV}\) 是压缩矩阵（上标 D 代表"下投影"，即降维操作），负责将 \(h_t\) 的维度从（\(h_n·d_h\)）压缩到\(d_c\)；\(W^{UK}\)和 \(W^{UV}\) 是上投影矩阵，负责将共享的潜在向量 \(c^{KV}_t\) 映射回高维空间。只需要存储这个潜在向量 \(c^{KV}_t\) ，就能获得对应不同文本特征的Key和Value，而不需要对每个文本特征都存储对应的Key和Value。
类似地，我们也可以将查询向量映射到一个潜在的低维向量，然后再将其映射回原始的高维空间。而且，MLA又结合了权重吸收技术，减少了计算开销。

注：

[*]全部文章列表在这里，估计最终在35篇左右，后续每发一篇文章，会修改此文章列表。cnblogs 探秘Transformer系列之文章列表
[*]本系列是对论文、博客和代码的学习和解读，借鉴了很多网上朋友的文章，在此表示感谢，并且会在参考中列出。因为本系列参考文章实在太多，可能有漏给出处的现象。如果原作者或者其他朋友发现，还请指出，我在参考文献中进行增补。
0x01 原理

1.1 问题

标准Transformer的一大障碍就是KV Cache的空间占用问题：多头注意力机制需要为每个注意力头单独存储历史生成的Key和Value向量（即KV缓存）。随着序列长度增加，KV缓存的存储需求呈指数级增长，导致内存占用急剧上升。而GPU的显存空间往往非常有限，较大的KV Cache会导致同时处理的request数量变少，也即batch size较小；为了减少KV缓存需求，研究人员提出了像Multi-Query Attention（MQA）和Group-Query Attention（GQA）这些方法。这些方法虽然降低了缓存要求，可模型的性能也受到影响。MQA或GQA算子在计算注意力的过程中，所有KV Cache中的数据读取后都仅参与一次或几次计算，导致该算子的MFU极低，并且由于每个request有自己的KV Cache，这一问题无法通过提高batch size的方式解决。
因此，如何减少推理过程的KV Cache，从而实现在更少的设备上推理更长的Context，或者在相同的Context长度下增大batch size，实现更快的推理速度或者更大的吞吐总量，最终降低推理成本。是一个关键问题。
1.2 当前状况

我们首先总结下当前各种方案的情况来看看有没有可以改进的空间。下图给出了MHA、GQA、MQA 以及 MLA 做法。

图上从左到右依次是 MHA、GQA、MQA 以及 MLA 。图中有阴影的长条表示会缓存到显存的结果。MHA、GQA、MQA 都需要将 KVCache 缓存到显存。几种方案特点如下。
<ul>MHA：MHA KVCache 在注意力头这个维度和 Q 矩阵一样，属于“一对一”。MHA把一个注意力计算拆成多个注意力头，每个注意力头使用独立的Q、K、V进行计算，需要把K、V都存储下来，KV Cache中每个token需要缓存的参数量为\(2
来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

页: [1]

程序园's Archiver

探秘Transformer系列之（28）--- DeepSeek MLA