找回密码
 立即注册
首页 业界区 安全 本地搭建一个图片对嘴转视频工具-进阶版 ...

本地搭建一个图片对嘴转视频工具-进阶版

粹脍誊 6 天前
上一章介绍了通过ComfyUI_Sonic模型实现图片+音频导出视频的图片对嘴的模型搭建,今天介绍一个进阶版(带表情的)。
 
1:官方要求的是GPU:20GB或更多 VRAM 的 GPU ,我的是8G的GPU,能运行起来,就是生成速度慢些。
 
2:代码下载。
下载地址:https://github.com/toto222/DICE-Talk
 
 下载解压后,去下载模型,跟前一章的ComfyUI_Sonic模型只有一个不一样,其他的可以直接复制过来就行。
 
模型下载: pretrain model, svd-xt and whisper-tiny  
 
1.png

 
3:安装,先直接运行就行
  1. python .\gradio_app.py
复制代码
 
如果报错,借助AI,差什么包,就安装什么包就行。
 
4: 使用
启动成功后,浏览器访问:http://127.0.0.1:8081/
 
2.png

 
 
下面是官方提供的一些表情例子:
 
3.png

 
 
5:生成
如果你的电脑GPU比较大,那生成的速度应该是比较快的,等待视频生成后。
 我的8G的GPU根本不够用,13秒音频一晚上都没生成完。噗~。
 
4.png

 
5.png

 

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
您需要登录后才可以回帖 登录 | 立即注册