在训练模型的时候, 我们需要试试监控nvidia显卡状态
包含显存使用状态和核心运行占用的情况
传统方式是使用nvidia-smi工具来显示显卡使用情况.
但是这个方式只能展示当前的情况
即使使用-l 1指令来循环展示, 也是不断地输出在终端, 会把终端日志拉的很长
哪怕是使用watch diff这样的执行来监控变化的部分也不够好, 不能交互
nvitop
一个为了监控显卡的状态的类top的工具
效果
这里是4卡, 所以有4个条目
可以通过选中一个任务检查具体的执行情况
安装
可以使用pip指令直接安装程序
使用
直接使用执行即可启动, 类似htop操作方式
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |