本地搭建一个图片对嘴转视频工具-进阶版

粹脍誊 · 6 天前

上一章介绍了通过ComfyUI_Sonic模型实现图片+音频导出视频的图片对嘴的模型搭建，今天介绍一个进阶版（带表情的）。

1：官方要求的是GPU:20GB或更多 VRAM 的 GPU ,我的是8G的GPU,能运行起来，就是生成速度慢些。

2：代码下载。
下载地址：https://github.com/toto222/DICE-Talk

下载解压后，去下载模型，跟前一章的ComfyUI_Sonic模型只有一个不一样，其他的可以直接复制过来就行。

模型下载： pretrain model, svd-xt and whisper-tiny

3：安装，先直接运行就行

python .\gradio_app.py

复制代码

如果报错，借助AI，差什么包，就安装什么包就行。

4：使用
启动成功后，浏览器访问：http://127.0.0.1:8081/

下面是官方提供的一些表情例子：

5：生成
如果你的电脑GPU比较大，那生成的速度应该是比较快的，等待视频生成后。
我的8G的GPU根本不够用，13秒音频一晚上都没生成完。噗~。

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册