稞冀 发表于 2025-6-11 09:36:47

华为Ascend 910B部署Qwen2.5-VL-32B方案

华为Ascend 910B部署Qwen2.5-VL-32B方案


目录

[*]一、多模态大模型——Qwen2.5-VL-32B

[*]1.1 简介
[*]1.2 显存测算

[*]1.2.1 Model Memory Calculator工具测算
[*]1.2.2 按模型参数量一般测算

[*]1.3 算力测算

[*]1.3.1 单 Token 理论计算量估算


[*]二、华为昇腾910B(64GB)

[*]2.1 简介
[*]2.2 Atlas 800I A2 推理服务器

[*]三、Qwen2.5-VL-32B-Instruct部署到华为昇腾910B
[*]四、测试

[*]4.1 硬件
[*]4.2 软件
[*]4.3 运行参数设置:

[*]参考资料
[*]附表

[*]表1. 模型下载地址
[*]表2. FP精度和特殊精度位数表
[*]表3. 对比910B/A100/A800/H100/H800/H200


部署Qwen2.5-VL-32B-Instruct模型至少需要2张华为昇腾910B(64GB)算力卡。具体测算依据如下:
一、多模态大模型——Qwen2.5-VL-32B

1.1 简介

项值最高上下文输入长度32K tokens最长输出结果2048 tokens模型类型多模态大模型发布时间2025-03-24模型预文件大小64GB代码开源状态Apache 2.0预训练权重开源Apache 2.0 - 免费商用授权GitHub 源码https://github.com/QwenLM/Qwen2.5-VLHugging Face平台模型下载https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instructmodelscope平台模型下载https://modelscope.cn/models/Qwen/Qwen2.5-VL-32B-Instruct/files在线体验https://chat.qwen.ai/、https://huggingface.co/spaces/Qwen/Qwen2.5-VL-32B-Instruct官方论文https://qwenlm.github.io/blog/qwen2.5-vl-32b/1.2 显存测算

1.2.1 Model Memory Calculator工具测算

使用Model Memory Calculator工具测算的显存占用结果如下:
量化类型(精度)最大层推理显存推理显存(修正)Adam训练显存float322.9 GB119.15 GB142.98 GB476.62 GBfloat161.45 GB59.58 GB71.496 GB238.31 GBint8742.5 MB29.79 GB35.748 GBN/Aint4371.25 MB14.89 GB17.868 GBN/A修正原因:EleutherAI在曾经的技术分析中提到推理所需的实际显存可能要比计算结果高20%左右。
HuggingFace官方工具Model Memory Calculator,一键计算大模型显存需求~ | 数据学习者官方网站(Datalearner)
1.2.2 按模型参数量一般测算

量化类型(精度)所需基础显存float32128 GBfloat1664GBint832GBint416GB依据附表2,全参数激活(320亿参数)
1.3 算力测算

1.3.1 单 Token 理论计算量估算

根据 Transformer 模型的 FLOPs 计算公式:

\
对于Qwen2.5-VL-32B(激活参数:32B;序列长度:假设生成阶段为单步解码(序列长度=1)), 则单 Token 理论计算量约为:\(2×3.2×10^{10}=6.4×10^{10} FLOPs=64GFLOPs\), 即 0.064 TFLOPS/token。
二、华为昇腾910B(64GB)

2.1 简介


[*]显存:64GB
[*]卡间互联带宽:392 GB/s(HCCS技术)
[*]精度-算力:
精度算力(TFLOPS)单卡理论峰值(Tokens/s)FP163205,000INT864010,000https://blog.csdn.net/hao_wujing/article/details/144820794
2.2 Atlas 800I A2 推理服务器

技术规格 - Atlas 800I A2 推理服务器 用户指南 09 - 华为
三、Qwen2.5-VL-32B-Instruct部署到华为昇腾910B

官方部署教程:https://www.hiascend.com/developer/ascendhub/detail/9eedc82e0c0644b2a2a9d0821ed5e7ad
其他部署教程:
【教程】阿里最新多模态大模型Qwen2.5-VL-32B ,本地部署实践|vl|视觉|qwen|知名企业|云计算费用|阿里巴巴集团_网易订阅
【本地部署教程】Qwen2.5-VL 阿里最新开源最强的开源视觉大模型,支持视频!_wx64449c2051655的技术博客_51CTO博客
基于昇腾MindIE开箱部署Qwen2.5-VL-32B,体验更聪明的多模态理解能力_昇腾 qwen2.5-vl-CSDN博客
在昇腾Ascend 910B上运行Qwen2.5推理 - 知乎
太好了,vLLM已支持华为昇腾910B,半小时可部署Deepseek - 知乎
四、测试

平台:Autodl
4.1 硬件

名称型号NPU华为昇腾910B(64GB)X2CPU48 vCPU Kunpeng-920内存440GB磁盘150GB4.2 软件

名称版本操作系统ubuntu22.04Python3.11.9CANN8.0.0torch2.5.1vllm0.7.3torchvision0.20.14.3 运行参数设置:

vllm serve /root/autodl-tmp/data-local/qwen25VL \
--max_model 4096 \
--port 8000 \
--tensor-parallel-size 2 \
--trust-remote-code \
--served-model-name "Qwen25vl" \
--api-key 123321
--dtype float16
--quantization bitsandbytes占用显存:116.41GB
实测速度:6.7 tokens/s
参考资料

Models_Ecosystem/Qwen2.5-VL-32B-Instruct | 魔乐社区
基于昇腾MindIE开箱部署Qwen2.5-VL-32B,体验更聪明的多模态理解能力_昇腾 qwen2.5-vl-CSDN博客
大模型对硬件资源的需求报告 - 知乎
deepseek-ai/DeepSeek-R1
https://blog.csdn.net/m0_59163425/article/details/145640613?fromshare=blogdetail&sharetype=blogdetail&sharerId=145640613&sharerefer=PC&sharesource=qq_44670441&sharefrom=from_link
https://www.51cto.com/article/807960.html
GPU 进阶笔记(二):华为昇腾 910B GPU_昇腾910b-CSDN博客
GPU Performance (Data Sheets) Quick Reference (2023)
https://huggingface.co/spaces/hf-accelerate/model-memory-usage
https://blog.csdn.net/weixin_45555699/article/details/145805848
大模型精度:FP32、TF32、FP16、BF16、FP8、FP4、NF4、INT8 - AI产品经理大群的文章 - 知乎
大模型推理显存与GPU计算器 | 硬件需求估算
GPU 显存带宽的计算方法 - 简书
性能仅华为AI芯片的50%,英伟达GPU H20被中企砍单? - OFweek电子工程网
【智算卡】华为昇腾910B与英伟达GPU全方位技术对比及产品线差异解析_华为升腾芯片与英伟达芯片对比-CSDN博客
中美AI芯片对决:华为昇腾910B vs 英伟达H100性能实测 - 今日头条
英伟达 vs. 华为海思:GPU性能一览 - 知乎
昇腾社区官网-昇腾万里 让智能无所不及
附表

表1. 模型下载地址

平台地址modelscopehttps://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1huggingfacehttps://huggingface.co/deepseek-ai/DeepSeek-R1deepseek官网https://deepseekv3.org/zh-Hans/downloadollamahttps://ollama.com/library/deepseek-r1表2. FP精度和特殊精度位数表

dtype1B(10亿)参数
约占用显存(GB)符号位指数位小数位总位数字节数FP64811152648FP3241823324TF3241810194BF162187162FP1621510162FP8 E4M3114381FP8 E5M2115281FP40.512140.5具体计算过程如下:
全精度即为float32类型,已知1个float32类型参数占用4个字节,参考 勾勾黄:LLM精度问题(FP16、FP32、BF16),1B模型有10亿参数,需占内存 \(10^9×4\)Bytes 。
已知 \(1GB=1024MB=1024^2KB=1024^3Bytes\)
那么,\(\frac{10^9×4Byte}{1024^3}≈4GB\)
https://zhuanlan.zhihu.com/p/20329244481
大模型训练和推理时的显存占用怎么计算 - 知乎
表3. 对比910B/A100/A800/H100/H800/H200

A800 (PCIe/SXM)A100 (PCIe/SXM)Huawei Ascend 910BH800 (PCIe/SXM)H100 (PCIe/SXM)H200 (PCIe/SXM)Year202220202023202220222024Manufacturing7nm7nm7+nm4nm4nm4nmArchitectureAmpereAmpereHUAWEI Da VinciHopperHopperHopperMax Power300/400 W300/400 W400 W350/700 W700WGPU Mem80G HBM2e80G HBM2e64G HBM2e80G HBM380G HBM3141GB HBM3eGPU Mem BW1935/2039 GB/s2/3.35 TB/s4.8 TB/sGPU Interconnect (one-to-one max bw)NVLINK 400GB/sPCIe Gen4 64GB/s, NVLINK 600GB/sHCCS 56GB/sNVLINK 400GB/sPCIe Gen5 128GB/s, NVLINK 900GB/sPCIe Gen5 128GB/s, NVLINK 900 GB/sGPU Interconnect (one-to-many total bw)NVLINK 400GB/sPCIe Gen4 64GB/s, NVLINK 600GB/sHCCS 392GB/sNVLINK 400GB/sPCIe Gen5 128GB/s, NVLINK 900GB/sPCIe Gen5 128GB/s, NVLINK 900 GB/sFP32 TFLOPS19.5`5167*`TF32 TFLOPS`156312*``756BF16 TFLOPS`156312*``1513FP16 TFLOPS`312624*`320`1513FP8 TFLOPSNOT supportNOT support`30263958*`INT8 TFLOPS`6241248*`640`3026GPU Performance (Data Sheets) Quick Reference (2023)

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
页: [1]
查看完整版本: 华为Ascend 910B部署Qwen2.5-VL-32B方案