图片生成对嘴视频FLOAT

松菊发表于 2025-9-26 10:49:19

之前已经介绍过图片对嘴生成视频的开源工具：
DICE-Talk：https://www.cnblogs.com/cj8988/p/18957718 （带表情，比较慢）
ComfyUI_Sonic：https://www.cnblogs.com/cj8988/p/18952604 （基础版）

本章在介绍一个图片生成对嘴视频的开源框架，带表情，生成比较快的。
float : https://github.com/deepbrainai-research/float

我这里使用集合ComfyUI版本：https://github.com/yuvraj108c/ComfyUI-FLOAT

一：下载源码

地址：https://github.com/yuvraj108c/ComfyUI-FLOAT
下载到指定目录：\ComfyUI\custom_nodes\

二：下载模型

地址：https://huggingface.co/yuvraj108c/float/tree/main
下载到指定目录：\ComfyUI\models\float\

三：安装插件

cd ./ComfyUI-FLOAT
pip install -r requirements.txt

四：运行

pythonmain.py<br><br>运行成功后，浏览器访问<br>http://127.0.0.1:8188/

然后将模板文件json拖拽进去：\ComfyUI\custom_nodes\ComfyUI-FLOAT\float_workflow.json

五：使用

上传一张图片，和一段音频，很快就生成了一个视频。图片必须是512*512尺寸的，其他尺寸都会被裁剪。

比较一下：
特性ComfyUI_Sonic (新一代)ComfyUI-FLOAT (上一代)优胜者 & 原因核心技术与语言无关 (Language-Agnostic)。直接从音频波形提取特征 (HuBERT)，驱动面部运动。依赖于特定语言的ASR。将语音转为音素，再由音素驱动嘴唇。
来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

页: [1]

程序园's Archiver

图片生成对嘴视频FLOAT