上一章介绍了通过ComfyUI_Sonic模型实现图片+音频导出视频的图片对嘴的模型搭建,今天介绍一个进阶版(带表情的)。
1:官方要求的是GPU:20GB或更多 VRAM 的 GPU ,我的是8G的GPU,能运行起来,就是生成速度慢些。
2:代码下载。
下载地址:https://github.com/toto222/DICE-Talk
下载解压后,去下载模型,跟前一章的ComfyUI_Sonic模型只有一个不一样,其他的可以直接复制过来就行。
模型下载: pretrain model, svd-xt and whisper-tiny
3:安装,先直接运行就行
如果报错,借助AI,差什么包,就安装什么包就行。
4: 使用
启动成功后,浏览器访问:http://127.0.0.1:8081/
下面是官方提供的一些表情例子:
5:生成
如果你的电脑GPU比较大,那生成的速度应该是比较快的,等待视频生成后。
我的8G的GPU根本不够用,13秒音频一晚上都没生成完。噗~。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |