之前已经介绍过图片对嘴生成视频的开源工具:
DICE-Talk:https://www.cnblogs.com/cj8988/p/18957718 (带表情,比较慢)
ComfyUI_Sonic:https://www.cnblogs.com/cj8988/p/18952604 (基础版)
本章在介绍一个图片生成对嘴视频的开源框架,带表情,生成比较快的。
float : https://github.com/deepbrainai-research/float
我这里使用集合ComfyUI版本:https://github.com/yuvraj108c/ComfyUI-FLOAT
一:下载源码
地址:https://github.com/yuvraj108c/ComfyUI-FLOAT
下载到指定目录:\ComfyUI\custom_nodes\
二:下载模型
地址:https://huggingface.co/yuvraj108c/float/tree/main
下载到指定目录:\ComfyUI\models\float\
三:安装插件
- cd ./ComfyUI-FLOAT
- pip install -r requirements.txt
复制代码
四:运行
- python main.py<br><br>运行成功后,浏览器访问<br>http://127.0.0.1:8188/
复制代码
然后将模板文件json拖拽进去:\ComfyUI\custom_nodes\ComfyUI-FLOAT\float_workflow.json
五:使用
上传一张图片,和一段音频,很快就生成了一个视频。图片必须是512*512尺寸的,其他尺寸都会被裁剪。
比较一下:
[table][tr][td]特性[/td][td]ComfyUI_Sonic (新一代)[/td][td]ComfyUI-FLOAT (上一代)[/td][td]优胜者 & 原因[/td][/tr][tr][td]核心技术[/td][td]与语言无关 (Language-Agnostic)。直接从音频波形提取特征 (HuBERT),驱动面部运动。[/td][td]依赖于特定语言的ASR。将语音转为音素,再由音素驱动嘴唇。[/td][td]
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |