本地搭建一个对嘴AI工具

墨淳雅 发表于 2025-6-27 14:49:47

图片+音频=说话视频
这就是本次需要实现的功能。

一：环境

window10电脑（GPU越大越好，我的是专享8G，有点小了）。
Python 3.11.9。
CUDA Version: 12.9。（驱动支持的最大 CUDA 版本，之前版本太低了，下载个新的安装，升级，重新启动电脑）

二：ComfyUI工具

ComfyUI：作为Stable Diffusion用户界面。之前的文章介绍过怎么安装：https://github.com/comfyanonymous/ComfyUI
ComfyUI_Sonic：核心框架：https://github.com/smthemex/ComfyUI_Sonic 。下载后解压到文件夹\ComfyUI\custom_nodes\下面。

直接根据安装文档进行安装，包括模型下载：“3.Model“。

三：直接运行

1：运行过程中有错误，比如有的模块没有安装，直接安装就行。
python .\main.py<br><br>成功启动后，浏览器直接访问：http://127.0.0.1:8188

2：加载移动json。在文件夹下：\ComfyUI\custom_nodes\ComfyUI_Sonic\example_workflows 找到example.json。
将其推到浏览器打开的ui界面中。

3：上传自己的图片和音频：将图片和音频上传到相应位置，注意有个时长需要调整为跟音频一样的时间长度。

4：点击运行后，需要等待了，如果你的GPU比较大，那等待的时间就比较短。
生成的视频文件根据你最后的那个输出配置，一般在文件夹 \ComfyUI\output 中。

查看文档：https://github.com/smthemex/ComfyUI_Sonic

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

页: [1]

程序园's Archiver

本地搭建一个对嘴AI工具