找回密码
 立即注册
首页 业界区 业界 图片生成对嘴视频FLOAT

图片生成对嘴视频FLOAT

松菊 2025-9-26 10:49:19
之前已经介绍过图片对嘴生成视频的开源工具:
DICE-Talk:https://www.cnblogs.com/cj8988/p/18957718   (带表情,比较慢)
ComfyUI_Sonic:https://www.cnblogs.com/cj8988/p/18952604 (基础版)
 
本章在介绍一个图片生成对嘴视频的开源框架,带表情,生成比较快的。
float : https://github.com/deepbrainai-research/float

 
我这里使用集合ComfyUI版本:https://github.com/yuvraj108c/ComfyUI-FLOAT
 
一:下载源码

地址:https://github.com/yuvraj108c/ComfyUI-FLOAT
下载到指定目录:\ComfyUI\custom_nodes\
1.png

 
 
二:下载模型

 地址:https://huggingface.co/yuvraj108c/float/tree/main
下载到指定目录:\ComfyUI\models\float\
2.png

 
3.png

 
三:安装插件
  1. cd ./ComfyUI-FLOAT
  2. pip install -r requirements.txt
复制代码
 
 
四:运行
  1. python  main.py<br><br>运行成功后,浏览器访问<br>http://127.0.0.1:8188/
复制代码
 
 
然后将模板文件json拖拽进去:\ComfyUI\custom_nodes\ComfyUI-FLOAT\float_workflow.json
4.png

 
五:使用

上传一张图片,和一段音频,很快就生成了一个视频。图片必须是512*512尺寸的,其他尺寸都会被裁剪。
5.png

 
比较一下:
[table][tr][td]特性[/td][td]ComfyUI_Sonic (新一代)[/td][td]ComfyUI-FLOAT (上一代)[/td][td]优胜者 & 原因[/td][/tr][tr][td]核心技术[/td][td]与语言无关 (Language-Agnostic)。直接从音频波形提取特征 (HuBERT),驱动面部运动。[/td][td]依赖于特定语言的ASR。将语音转为音素,再由音素驱动嘴唇。[/td][td]
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

相关推荐

您需要登录后才可以回帖 登录 | 立即注册