DeepSeek采用的UE8M0 FP8 为什么引爆了A股的芯片板块

上官泰 · 前天 18:06

DeepSeek 这次的重点不在模型 V3.1，而是在DeepSeek在其官宣发布DeepSeek-V3.1的文章中提到，DeepSeek-V3.1使用了UE8MO FP8 Scale的参数精度。另外，V3.1对分词器及chat template进行了较大调整，与DeepSeek-V3存在明显差异。DeepSeek官微在置顶留言里表示UE8MO FP8是针对即将发布的下一代国产芯片设计。一则官方留言让整个AI圈都轰动了：

新的架构、下一代国产芯片，总共短短不到20个字，却蕴含了巨大信息量。国产芯片企业股价也跟风上涨，比如寒武纪今日早盘盘中大涨近14%，总市值跃居科创板头名。这里面有几个疑问：这个UE8M0 FP8到底是什么？下一代国产芯片，又是指什么？
UE8M0 FP8是什么？

“UE8M0 FP8”这个概念，可以拆分成前后两个部分来解释，前面的UE8M0，是MXFP8路径里的“缩放因子”。
MXFP8是Open Compute Project在2023年发布的《Microscaling (MX) Formats Specification v1.0》里定义的8 bit微缩块格式。Open Compute Project是2011年由Facebook（现Meta）联合英特尔、Rackspace等发起的开源硬件协作计划，目的是通过共享数据中心及服务器设计推动行业效率提升。其成员阵容相当强大，国外还有微软、谷歌、亚马逊、AMD、英伟达等，而国内的阿里、腾讯、百度等也参与其中。它通过：

块缩放（Block Scaling）：将一个张量（Tensor）分割成小块（例如每32个元素一块），每个块共享一个缩放因子（Scale Factor，常用UE8M0格式存储）。这有效扩展了低精度格式的动态范围，避免了数值溢出或精度损失。
硬件原生支持：新一代AI芯片（如NVIDIA Blackwell）的Tensor Core已原生支持MX格式计算，能在单元内完成数据、缩放因子计算和矩阵乘法，显著提升效率。

对于AI计算，尤其是大模型训练和推理，MXFP8能带来：

计算效率提升：相比FP16，FP8计算吞吐量可提升约2倍。
显存占用降低：模型参数显存占用减半，允许部署更大模型或降低硬件成本。
功耗降低：数据搬运和计算的能耗显著下降。

MXFP8是一种结合了微缩放（Microscaling）技术的8位浮点格式，能有效提升大模型训练的效率和降低显存占用，以下是已量产或计划支持的相关芯片：

公司	芯片型号	状态/发布时间	关键特性	支持情况
寒武纪	思元590/690系列	已支持/已流片	支持FP8	MLU370-S4、思元590及690系列芯片均支持FP8计算
华为	昇腾910D/920系列	计划支持	预计2025年Q4支持原生FP8	路线图显示2025年第四季度将加入支持行列
燧原科技	燧原L600	2025年7月发布	国内首款原生支持FP8低精度计算的训推一体AI芯片，配备144GB存储容量和3.6TB/s存储带宽	原生支持FP8
沐曦	曦云C600	2025年Q4量产	基于XCORE1.5架构原生支持FP8 Tensor指令及Tensor转置功能，采用HBM3e显存	原生支持FP8
摩尔线程	MTT S5000	已大规模量产	MUSA架构支持UE8M0 FP8 Scale，利用硬件原生FP8，相比FP16计算算力提升2倍，带宽效率提升	原生支持FP8
海光信息	深算系列	已支持	支持FP8精度	深算系列芯片支持FP8
壁仞科技	BR100系列	已发布	支持FP16/INT8计算	未明确提及FP8，但具备低精度计算基础
天数智芯	相关产品	适配中	参与DeepSeek模型适配	未明确提及FP8，但正在推进软硬件协同优化

UE8M0 FP8是一种缩放因子格式。它的核心思想是微缩块（Microscaling, MX）格式：将一个张量分成许多小块（例如每块包含32个数值），每个块共享一个缩放因子（Scale），块内的数值则用低精度格式（如FP8）存储。

UE8M0：这个名称揭示了其结构。
- U 代表无符号（Unsigned），因为它通常用于处理非负的激活值或缩放因子本身。
- E8 代表8位指数（Exponent）。
- M0 代表0位尾数（Mantissa）。这意味着UE8M0仅能表示2的整数幂（例如 ..., 2^-2=0.25, 2^-1=0.5, 2^0=1, 2^1=2, 2^2=4, ...），其动态范围极大（约2^{-127} 到 2^{128})。
硬件友好：由于仅表示2的幂，在硬件解码时只需进行指数位移操作，无需传统的浮点乘法器，这可以显著简化电路、缩短关键路径延迟并降低功耗。
与计算格式协同：UE8M0 FP8通常不直接用于计算，而是作为缩放因子，与E4M3或E5M2等计算格式协同工作，共同构成MXFP8格式。

国产AI芯片厂商正积极布局MXFP8等低精度格式的支持，这背后是软硬协同生态的构建：

软件生态支持：DeepSeek（深度求索）等AI厂商在算法和软件层面优化了对FP8格式的支持（如开源DeepGEMM库），并积极与国产芯片适配。这为国产芯片提供了“换道超车”的机会。
突破带宽瓶颈：许多国产AI芯片在HBM等高带宽内存技术上存在差距。MX格式通过显著降低数据位宽，能有效缓解带宽压力，让算力得到更充分利用。
硬件加速迭代：上述芯片厂商的新一代产品大多将原生支持FP8作为重要特性，通过架构设计（如专用的Tensor Core、指令集扩展）来高效支持MXFP8计算。 UE8M0硬件解码简单的特性，使其非常适合在设计自主可控的国产AI加速器中集成，有助于降低功耗、提升能效比。
应对技术封锁：在美国对高端AI芯片实施出口管制的背景下，推动国产算力发展至关重要。支持MXFP8等先进格式，有助于缩小国产芯片与国际顶尖产品在实际应用中的性能差距。

如果你在选择支持MXFP8的国产AI芯片，可以考虑以下几点：

确认原生支持：关注芯片是否原生支持FP8计算（而并非仅通过软件模拟或转换），这直接影响计算效率。
关注软件生态：了解芯片与主流AI框架（如DeepSeek、TensorFlow、PyTorch）的适配情况，以及其低精度计算库的成熟度。
考察实际性能：关注芯片在特定负载（如大模型训练或推理）下的实际算力、显存带宽和能效表现。
了解量产进度：部分芯片可能已发布但尚未大规模量产，需确认其供货情况和使用案例。

总结

支持MXFP8的国产AI芯片阵容正在不断扩大，包括寒武纪、燧原科技、华为、沐曦、摩尔线程、海光信息等厂商的产品。这反映了国产AI算力在软硬协同发展上的进步，旨在提升大模型处理效率，并减少对国外高性能GPU的依赖。希望这些信息能帮助你更好地了解国产AI芯片对MXFP8的支持情况。

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册