松菊 发表于 2025-9-26 10:49:19

图片生成对嘴视频FLOAT

之前已经介绍过图片对嘴生成视频的开源工具:
DICE-Talk:https://www.cnblogs.com/cj8988/p/18957718   (带表情,比较慢)
ComfyUI_Sonic:https://www.cnblogs.com/cj8988/p/18952604 (基础版)
 
本章在介绍一个图片生成对嘴视频的开源框架,带表情,生成比较快的。
float : https://github.com/deepbrainai-research/float

 
我这里使用集合ComfyUI版本:https://github.com/yuvraj108c/ComfyUI-FLOAT
 
一:下载源码

地址:https://github.com/yuvraj108c/ComfyUI-FLOAT
下载到指定目录:\ComfyUI\custom_nodes\

 
 
二:下载模型

 地址:https://huggingface.co/yuvraj108c/float/tree/main
下载到指定目录:\ComfyUI\models\float\

 

 
三:安装插件

cd ./ComfyUI-FLOAT
pip install -r requirements.txt 
 
四:运行

pythonmain.py<br><br>运行成功后,浏览器访问<br>http://127.0.0.1:8188/ 
 
然后将模板文件json拖拽进去:\ComfyUI\custom_nodes\ComfyUI-FLOAT\float_workflow.json

 
五:使用

上传一张图片,和一段音频,很快就生成了一个视频。图片必须是512*512尺寸的,其他尺寸都会被裁剪。

 
比较一下:
特性ComfyUI_Sonic (新一代)ComfyUI-FLOAT (上一代)优胜者 & 原因核心技术与语言无关 (Language-Agnostic)。直接从音频波形提取特征 (HuBERT),驱动面部运动。依赖于特定语言的ASR。将语音转为音素,再由音素驱动嘴唇。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
页: [1]
查看完整版本: 图片生成对嘴视频FLOAT