登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
签到
每天签到奖励2-10圆
导读
排行榜
TG频道
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
VIP申请
VIP网盘
网盘
联系我们
发帖说明
每日签到
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
科技
›
openeuler24.03 lts sp1 安装Nvidia驱动及gpu-operator ...
openeuler24.03 lts sp1 安装Nvidia驱动及gpu-operator踩坑
[ 复制链接 ]
当贵
2025-6-9 19:50:50
openeuler24.03 lts sp1 安装Nvidia驱动踩坑
网上找到的文档步骤(不要操作,仅展示问题所在)
跟随文档安装时
yum install gcc make kernel-devel
yum install vulkan-loader
chmod u+x NVIDIA-Linux-x86_64-550.54.15.run
./NVIDIA-Linux-x86_64-550.54.15.run
复制代码
结果报错,提示unable to find kernel source tree
问题排查
kernel版本原因,导致安装驱动时报错
使用下面命令查看当前内核版本
uname -r
复制代码
直接使用yum install gcc make kernel-devel的话,可能安装的版本不一致
可以使用如下命令查看yum安装的版本
yum list | grep kernel-devel
复制代码
解决问题
安装正确版本,即符合系统当前内核版本的kernel-devel
yum install "kernel-devel-uname-r == $(uname -r)" gcc make -y
复制代码
不要忘记
yum install vulkan-loader -y
复制代码
安装cuda,并添加path
考虑了一下,觉得cuda也要用,干脆用cuda直接把驱动和toolkit都装了
同意协议
这里安装驱动和toolkit,其他取消勾选
等待安装完成,然后使用nvidia-smi确认安装结果,正常输出结果
nvcc -V命令问题排查
使用nvcc -V时提示未找到命令,还需要添加到path中
首先检查一下/usr/local/中有没有cuda目录
接下来就是添加了,修改文件
vi ~/.bashrc
复制代码
在文件末尾添加
# cuda
export LD_LIBRARY_PATH=/usr/local/cuda/lib64
export PATH=$PATH:/usr/local/cuda/bin
复制代码
应用修改
source ~/.bashrc
复制代码
此时再使用nvcc -V,可以看到正常输出的结果,驱动和cuda均安装成功
安装gpu-operator
注意,由于我尝试了多次,所以NFD是启用的状态,正常安装时,最后的set nfd.enabled=false应该删除,可以使用下面命令查看NFD是否启用,结果为true就是启用的状态
kubectl get nodes -o json | jq '.items[].metadata.labels | keys | any(startswith("feature.node.kubernetes.io"))'
复制代码
确认无误,我这里使用的运行时为containerd,保险起见,加上了官方文档的参数
helm install gpu-operator -n gpu-operator --create-namespace \
nvidia/gpu-operator $HELM_OPTIONS \
--version=v24.9.2 \
--set toolkit.env[0].name=CONTAINERD_CONFIG \
--set toolkit.env[0].value=/etc/containerd/config.toml \
--set toolkit.env[1].name=CONTAINERD_SOCKET \
--set toolkit.env[1].value=/run/containerd/containerd.sock \
--set toolkit.env[2].name=CONTAINERD_RUNTIME_CLASS \
--set toolkit.env[2].value=nvidia \
--set toolkit.env[3].name=CONTAINERD_SET_AS_DEFAULT \
--set-string toolkit.env[3].value=true \
--set driver.enabled=false \
--set nfd.enabled=false
复制代码
等待命令执行完毕,查看pods是否成功创建
kubectl get pods -n gpu-operator
复制代码
pods一般需要3~5分钟,最后完成的状态有running和completed,具体耗时和拉取镜像的速度等因素有关
验证gpu-operator是否安装成功
跑一个简单的示例
[code]cat
openeuler24
lts
sp1
安装
Nvidia
相关帖子
PostgreSQL 18 源码编译安装体验
代下狗网盘程序有安装说明
IIS8.5 安装证书
HOOPS 2023 SP1新内容:3D格式转换格式更新至最新版!
第2章 Git安装
冰蝎(Behinder)下载与安装以及连接测试
冰蝎(Behinder)下载与安装以及连接测试
公网服务器下的dify安装模型插件的相关问题和操作
如何安装claude code以及ccr code
编译安装nginx
vip免费申请,1年只需15美金$
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
PostgreSQL 18 源码编译安装体验
1
265
懵崭
2025-10-08
程序
代下狗网盘程序有安装说明
0
19
新程序
2025-10-10
安全
IIS8.5 安装证书
1
247
勉欤铅
2025-10-10
安全
HOOPS 2023 SP1新内容:3D格式转换格式更新至最新版!
0
742
游康
2025-10-10
安全
第2章 Git安装
0
309
薯羞
2025-10-10
软件
冰蝎(Behinder)下载与安装以及连接测试
0
13
新程序
2025-10-10
软件
冰蝎(Behinder)下载与安装以及连接测试
0
19
新程序
2025-10-10
安全
公网服务器下的dify安装模型插件的相关问题和操作
0
35
刎唇
2025-10-11
业界
如何安装claude code以及ccr code
0
391
强怀梅
2025-10-13
安全
编译安装nginx
0
384
坠矜
2025-10-13
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
业界
代码
签约作者
程序园优秀签约作者
发帖
当贵
2025-6-9 19:50:50
关注
0
粉丝关注
20
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
anyue1937
9994888
dage888
999994
3934307807
993678
4
富账慕
10004
5
刎唇
9993
6
柴古香
9989
7
烯八
9972
8
匝抽
9986
9
筒濂
9977
10
孙淼淼
9983
查看更多