找回密码
 立即注册
首页 业界区 业界 DeepSeek采用的UE8M0 FP8 为什么引爆了A股的芯片板块 ...

DeepSeek采用的UE8M0 FP8 为什么引爆了A股的芯片板块

上官泰 前天 18:06
DeepSeek 这次的重点不在模型 V3.1,而是在DeepSeek在其官宣发布DeepSeek-V3.1的文章中提到,DeepSeek-V3.1使用了UE8MO FP8 Scale的参数精度。另外,V3.1对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。DeepSeek官微在置顶留言里表示UE8MO FP8是针对即将发布的下一代国产芯片设计。一则官方留言让整个AI圈都轰动了:
1.png

新的架构、下一代国产芯片,总共短短不到20个字,却蕴含了巨大信息量。 国产芯片企业股价也跟风上涨,比如寒武纪今日早盘盘中大涨近14%,总市值跃居科创板头名。这里面有几个疑问:这个UE8M0 FP8到底是什么?下一代国产芯片,又是指什么?
UE8M0 FP8什么

“UE8M0 FP8”这个概念,可以拆分成前后两个部分来解释,前面的UE8M0,是MXFP8路径里的“缩放因子”。
MXFP8是Open Compute Project在2023年发布的《Microscaling (MX) Formats Specification v1.0》里定义的8 bit微缩块格式。Open Compute Project是2011年由Facebook(现Meta)联合英特尔、Rackspace等发起的开源硬件协作计划,目的是通过共享数据中心及服务器设计推动行业效率提升。其成员阵容相当强大,国外还有微软、谷歌、亚马逊、AMD、英伟达等,而国内的阿里、腾讯、百度等也参与其中。它通过:

  • 块缩放(Block Scaling):将一个张量(Tensor)分割成小块(例如每32个元素一块),每个块共享一个缩放因子(Scale Factor,常用UE8M0格式存储)。这有效扩展了低精度格式的动态范围,避免了数值溢出或精度损失。
  • 硬件原生支持:新一代AI芯片(如NVIDIA Blackwell)的Tensor Core已原生支持MX格式计算,能在单元内完成数据、缩放因子计算和矩阵乘法,显著提升效率。
对于AI计算,尤其是大模型训练和推理,MXFP8能带来:

  • 计算效率提升:相比FP16,FP8计算吞吐量可提升约2倍。
  • 显存占用降低:模型参数显存占用减半,允许部署更大模型或降低硬件成本。
  • 功耗降低:数据搬运和计算的能耗显著下降。
MXFP8是一种结合了微缩放(Microscaling)技术的8位浮点格式,能有效提升大模型训练的效率和降低显存占用,以下是已量产或计划支持的相关芯片:
公司芯片型号状态/发布时间关键特性支持情况
寒武纪思元590/690系列已支持/已流片支持FP8MLU370-S4、思元590及690系列芯片均支持FP8计算
华为昇腾910D/920系列计划支持预计2025年Q4支持原生FP8路线图显示2025年第四季度将加入支持行列
燧原科技燧原L6002025年7月发布国内首款原生支持FP8低精度计算的训推一体AI芯片,配备144GB存储容量和3.6TB/s存储带宽原生支持FP8
沐曦曦云C6002025年Q4量产基于XCORE1.5架构原生支持FP8 Tensor指令及Tensor转置功能,采用HBM3e显存原生支持FP8
摩尔线程MTT S5000已大规模量产MUSA架构支持UE8M0 FP8 Scale,利用硬件原生FP8,相比FP16计算算力提升2倍,带宽效率提升原生支持FP8
海光信息深算系列已支持支持FP8精度深算系列芯片支持FP8
壁仞科技BR100系列已发布支持FP16/INT8计算未明确提及FP8,但具备低精度计算基础
天数智芯相关产品适配中参与DeepSeek模型适配未明确提及FP8,但正在推进软硬件协同优化


UE8M0 FP8是一种缩放因子格式。它的核心思想是微缩块(Microscaling, MX)格式:将一个张量分成许多小块(例如每块包含32个数值),每个块共享一个缩放因子(Scale),块内的数值则用低精度格式(如FP8)存储。

  • UE8M0:这个名称揭示了其结构。

    • U 代表无符号(Unsigned),因为它通常用于处理非负的激活值或缩放因子本身。
    • E8 代表8位指数(Exponent)。
    • M0 代表0位尾数(Mantissa)。这意味着UE8M0仅能表示2的整数幂(例如 ..., 2^-2=0.25, 2^-1=0.5, 2^0=1, 2^1=2, 2^2=4, ...),其动态范围极大(约2^{-127} 到 2^{128})。

  • 硬件友好:由于仅表示2的幂,在硬件解码时只需进行指数位移操作,无需传统的浮点乘法器,这可以显著简化电路、缩短关键路径延迟并降低功耗。
  • 与计算格式协同:UE8M0 FP8通常不直接用于计算,而是作为缩放因子,与E4M3或E5M2等计算格式协同工作,共同构成MXFP8格式。


国产AI芯片厂商正积极布局MXFP8等低精度格式的支持,这背后是软硬协同生态的构建:

  • 软件生态支持:DeepSeek(深度求索)等AI厂商在算法和软件层面优化了对FP8格式的支持(如开源DeepGEMM库),并积极与国产芯片适配。这为国产芯片提供了“换道超车”的机会。
  • 突破带宽瓶颈:许多国产AI芯片在HBM等高带宽内存技术上存在差距。MX格式通过显著降低数据位宽,能有效缓解带宽压力,让算力得到更充分利用。
  • 硬件加速迭代:上述芯片厂商的新一代产品大多将原生支持FP8作为重要特性,通过架构设计(如专用的Tensor Core、指令集扩展)来高效支持MXFP8计算。 UE8M0硬件解码简单的特性,使其非常适合在设计自主可控的国产AI加速器中集成,有助于降低功耗、提升能效比。
  • 应对技术封锁:在美国对高端AI芯片实施出口管制的背景下,推动国产算力发展至关重要。支持MXFP8等先进格式,有助于缩小国产芯片与国际顶尖产品在实际应用中的性能差距。
如果你在选择支持MXFP8的国产AI芯片,可以考虑以下几点:

  • 确认原生支持:关注芯片是否原生支持FP8计算(而并非仅通过软件模拟或转换),这直接影响计算效率。
  • 关注软件生态:了解芯片与主流AI框架(如DeepSeek、TensorFlow、PyTorch)的适配情况,以及其低精度计算库的成熟度。
  • 考察实际性能:关注芯片在特定负载(如大模型训练或推理)下的实际算力、显存带宽和能效表现。
  • 了解量产进度:部分芯片可能已发布但尚未大规模量产,需确认其供货情况和使用案例。
总结

支持MXFP8的国产AI芯片阵容正在不断扩大,包括寒武纪、燧原科技、华为、沐曦、摩尔线程、海光信息等厂商的产品。这反映了国产AI算力在软硬协同发展上的进步,旨在提升大模型处理效率,并减少对国外高性能GPU的依赖。希望这些信息能帮助你更好地了解国产AI芯片对MXFP8的支持情况。

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
您需要登录后才可以回帖 登录 | 立即注册