登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
fantasy-talking:实现图片加音频生成对嘴数字人 ...
fantasy-talking:实现图片加音频生成对嘴数字人
[ 复制链接 ]
孔季雅
2025-7-23 16:33:38
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
引言:一张图也能“说话”?
你有没有想过,一张静态的照片,配上一段音频,就能变成一段“对嘴”的视频?不是简单的口型同步,而是让图片中的人物“活过来”,仿佛真的在说话、唱歌、甚至表演。
这听起来像是科幻电影里的场景,但其实,这样的技术已经在我们身边悄然实现了。
之前已经介绍过一些类似项目的搭建:
FLOAT: https://www.cnblogs.com/cj8988/p/18984186 (带表情,比较快,但是会裁剪为正方形尺寸)
DICE-Talk:https://www.cnblogs.com/cj8988/p/18957718 (带表情,比较慢)
ComfyUI_Sonic:https://www.cnblogs.com/cj8988/p/18952604 (基础版,效果好)
今天要介绍的这个开源项目 —— fantasy-talking,就是这样一个神奇的存在。它能让你上传一张图片和一段音频,自动生成一段“对嘴”的视频,效果之逼真,令人惊叹。
这篇文章,我们就来一起看看这个项目的魅力所在,以及它是如何做到“让图片开口说话”的。
一、项目简介:fantasy-talking 是什么?
fantasy-talking 是一个基于深度学习的开源项目,旨在实现将静态图片与语音音频结合,生成一段看起来像是人物在“说话”的视频。项目代码托管在 GitHub 上,目前已有不少开发者关注和贡献。
它的核心思想是通过语音驱动模型,生成与语音内容匹配的面部动作(尤其是嘴巴动作),再结合原始图片中的人物面部结构,生成一帧帧动态画面,最终合成一段视频。
简单来说,只要你有一张正面清晰的人脸照片,和一段你想让他“说”的语音,这个项目就能帮你生成一段“他”在说话的视频。
二、搭建过程:动手试试看
如果你对这个项目感兴趣,不妨亲自搭建一下试试看。以下是大致的搭建流程:
环境准备
Python 3.10
Anaconda
PyTorch
CUDA 环境(如果你有 GPU)
磁盘空间大,因为要下载大量的模型文件
步骤概览
克隆仓库
<img >
git clone https://github.com/Fantasy-AMAP/fantasy-talking.git
复制代码
虚拟环境搭建
我的环境是window中的Anaconda
<img >
生成虚拟环境:(第一次)conda create -n fantasy-talkings python=3.10生成虚拟环境:(第一次)
conda create -n fantasy-talkings python=3.10
激活:
conda activate fantasy-talkings
#安装依赖:<br>pip install -r requirements.txt
复制代码
#下面这个是gpu加速的,我在window没有安装成功
#pip install flash_attn
如果直接使用pip install flash_attn安装失败,可以试试下面的方法:
1:下载whl文件:https://huggingface.co/lldacing/flash-attention-windows-wheel/tree/main
2:找到跟你pip show torch 和 python版本对应的whl下载
3:安装:
pip install flash_attn-.....whl
复制代码
模型下载
这里需要下载的模型非常大:
Wan2.1-I2V-14B-720P:https://huggingface.co/Wan-AI/Wan2.1-I2V-14B-720P 或者 https://www.modelscope.cn/models/Wan-AI/Wan2.1-I2V-14B-720P
Wav2Vec:https://huggingface.co/facebook/wav2vec2-base-960h 或者 https://modelscope.cn/models/AI-ModelScope/wav2vec2-base-960h
FantasyTalking :https://huggingface.co/acvlab/FantasyTalking 或者 https://www.modelscope.cn/models/amap_cvlab/FantasyTalking/
特别是第一个模型,非常的大。下载后存放到相应位置:
./models/Wan2.1-I2V-14B-720P。
./models/wav2vec2-base-960h。
./models
复制代码
可以手动下载,也可以cli下载:
<img >
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-I2V-14B-720P --local-dir ./models/Wan2.1-I2V-14B-720P
huggingface-cli download facebook/wav2vec2-base-960h --local-dir ./models/wav2vec2-base-960h
huggingface-cli download acvlab/FantasyTalking fantasytalking_model.ckpt --local-dir ./models
复制代码
运行项目
<img >
pip install gradio spaces
python app.py
复制代码
查看结果
上传你的图片和音频,等待一段时间后,查看生成的视频。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
fantasy
talking
实现
图片
音频
相关帖子
flex里的小众元素实现方式
如何实现 vxe-tree 树组件拖拽节点后进行二次确认提示
在.NET中实现一库多租户(Single Database Multi-Tenancy)模式
vxe-gantt table 甘特图来实现多个维度视图展示,
短视频 / 图片不够清?SeedVR2.5 超分操作指南,一键拉满画质
C#AI系列(5): C#离线实现高效OCR
[dx12显示图片] ImGui Learn Data Day 3
电脑音频录制工具(语音聊天录音软件)
C语言实现单片机上的malloc函数功能
PostgreSQL数据库在Windows上实现异地自动备份指南-喂饭图文教程
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
flex里的小众元素实现方式
0
231
皇甫佳文
2025-12-10
代码
如何实现 vxe-tree 树组件拖拽节点后进行二次确认提示
0
162
啪炽
2025-12-10
业界
在.NET中实现一库多租户(Single Database Multi-Tenancy)模式
0
527
恙髡
2025-12-11
代码
vxe-gantt table 甘特图来实现多个维度视图展示,
0
127
忿惺噱
2025-12-12
业界
短视频 / 图片不够清?SeedVR2.5 超分操作指南,一键拉满画质
1
938
焦听云
2025-12-12
业界
C#AI系列(5): C#离线实现高效OCR
0
674
郏琼芳
2025-12-13
业界
[dx12显示图片] ImGui Learn Data Day 3
0
686
滕佩杉
2025-12-15
业界
电脑音频录制工具(语音聊天录音软件)
0
170
诸婉丽
2025-12-15
安全
C语言实现单片机上的malloc函数功能
0
340
咒卖箴
2025-12-15
业界
PostgreSQL数据库在Windows上实现异地自动备份指南-喂饭图文教程
0
508
姥恫
2025-12-15
回复
(4)
昝沛珊
2025-10-20 08:44:56
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
过来提前占个楼
焦尔蕾
2025-10-28 05:26:03
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
分享、互助 让互联网精神温暖你我
愆蟠唉
2025-11-4 11:13:14
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
yyds。多谢分享
缄戈
2025-11-27 04:50:37
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
过来提前占个楼
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
安全
签约作者
程序园优秀签约作者
发帖
孔季雅
2025-11-27 04:50:37
关注
0
粉丝关注
23
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
anyue1937
9994893
kk14977
6845357
3934307807
991123
4
xiangqian
638210
5
韶又彤
9998
6
宋子
9983
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9951
查看更多
今日好文热榜
895
【分析式AI】-带你秒弄懂决策树与随机森林
97
DBLens 的数据安全、登录方式与离线使用说
71
国内开发者合规订阅 Claude Code 的 3 条最
153
Perforce QAC 2025.3 新版上线 | 速度与深
475
防止跨站脚本攻击(XSS)(完整版HTTP安全
352
Wayland下RDP服务器的搭建
887
Flink学习笔记:状态后端
532
csq-蓝桥杯python-基础语法2-列表与循环语
512
C#+VisionMaster 学习笔记(目录)-目录
586
ROS2核心概念之参数
88
【Agent】MemOS 源码笔记---(5)---记忆分类
129
.NET周刊【11月第4期 2025-11-23】
190
Oracle回滚与撤销(Undo)技术:从理论到实
221
吴恩达深度学习课程四:计算机视觉 第二周
854
jetson nano的ssh远程登录连接
638
Categraf 监控采集器常见问题汇总
825
11月和12月求职总结
950
2026年成都品牌主,如何选择AI优化搜索(AI
368
01 相向双指针
487
制造行业项目管理工具选型经验分享(简直是