图片生成对嘴视频FLOAT

松菊 · 2025-9-26 10:49:19

之前已经介绍过图片对嘴生成视频的开源工具：
DICE-Talk：https://www.cnblogs.com/cj8988/p/18957718 （带表情，比较慢）
ComfyUI_Sonic：https://www.cnblogs.com/cj8988/p/18952604 （基础版）

本章在介绍一个图片生成对嘴视频的开源框架，带表情，生成比较快的。
float : https://github.com/deepbrainai-research/float

我这里使用集合ComfyUI版本：https://github.com/yuvraj108c/ComfyUI-FLOAT

一：下载源码

地址：https://github.com/yuvraj108c/ComfyUI-FLOAT
下载到指定目录：\ComfyUI\custom_nodes\

二：下载模型

地址：https://huggingface.co/yuvraj108c/float/tree/main
下载到指定目录：\ComfyUI\models\float\

三：安装插件

cd ./ComfyUI-FLOAT
pip install -r requirements.txt

复制代码

四：运行

python main.py<br><br>运行成功后，浏览器访问<br>http://127.0.0.1:8188/

复制代码

然后将模板文件json拖拽进去：\ComfyUI\custom_nodes\ComfyUI-FLOAT\float_workflow.json

五：使用

上传一张图片，和一段音频，很快就生成了一个视频。图片必须是512*512尺寸的，其他尺寸都会被裁剪。

比较一下：
[table][tr][td]特性[/td][td]ComfyUI_Sonic (新一代)[/td][td]ComfyUI-FLOAT (上一代)[/td][td]优胜者 & 原因[/td][/tr][tr][td]核心技术[/td][td]与语言无关 (Language-Agnostic)。直接从音频波形提取特征 (HuBERT)，驱动面部运动。[/td][td]依赖于特定语言的ASR。将语音转为音素，再由音素驱动嘴唇。[/td][td]
来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册

图片生成对嘴视频FLOAT

相关帖子

浏览过的版块

签约作者

图片生成对嘴视频FLOAT

相关帖子

相关推荐

浏览过的版块

签约作者