登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
fantasy-talking:实现图片加音频生成对嘴数字人 ...
fantasy-talking:实现图片加音频生成对嘴数字人
[ 复制链接 ]
孔季雅
2025-7-23 16:33:38
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
引言:一张图也能“说话”?
你有没有想过,一张静态的照片,配上一段音频,就能变成一段“对嘴”的视频?不是简单的口型同步,而是让图片中的人物“活过来”,仿佛真的在说话、唱歌、甚至表演。
这听起来像是科幻电影里的场景,但其实,这样的技术已经在我们身边悄然实现了。
之前已经介绍过一些类似项目的搭建:
FLOAT: https://www.cnblogs.com/cj8988/p/18984186 (带表情,比较快,但是会裁剪为正方形尺寸)
DICE-Talk:https://www.cnblogs.com/cj8988/p/18957718 (带表情,比较慢)
ComfyUI_Sonic:https://www.cnblogs.com/cj8988/p/18952604 (基础版,效果好)
今天要介绍的这个开源项目 —— fantasy-talking,就是这样一个神奇的存在。它能让你上传一张图片和一段音频,自动生成一段“对嘴”的视频,效果之逼真,令人惊叹。
这篇文章,我们就来一起看看这个项目的魅力所在,以及它是如何做到“让图片开口说话”的。
一、项目简介:fantasy-talking 是什么?
fantasy-talking 是一个基于深度学习的开源项目,旨在实现将静态图片与语音音频结合,生成一段看起来像是人物在“说话”的视频。项目代码托管在 GitHub 上,目前已有不少开发者关注和贡献。
它的核心思想是通过语音驱动模型,生成与语音内容匹配的面部动作(尤其是嘴巴动作),再结合原始图片中的人物面部结构,生成一帧帧动态画面,最终合成一段视频。
简单来说,只要你有一张正面清晰的人脸照片,和一段你想让他“说”的语音,这个项目就能帮你生成一段“他”在说话的视频。
二、搭建过程:动手试试看
如果你对这个项目感兴趣,不妨亲自搭建一下试试看。以下是大致的搭建流程:
环境准备
Python 3.10
Anaconda
PyTorch
CUDA 环境(如果你有 GPU)
磁盘空间大,因为要下载大量的模型文件
步骤概览
克隆仓库
<img >
git clone https://github.com/Fantasy-AMAP/fantasy-talking.git
复制代码
虚拟环境搭建
我的环境是window中的Anaconda
<img >
生成虚拟环境:(第一次)conda create -n fantasy-talkings python=3.10生成虚拟环境:(第一次)
conda create -n fantasy-talkings python=3.10
激活:
conda activate fantasy-talkings
#安装依赖:<br>pip install -r requirements.txt
复制代码
#下面这个是gpu加速的,我在window没有安装成功
#pip install flash_attn
如果直接使用pip install flash_attn安装失败,可以试试下面的方法:
1:下载whl文件:https://huggingface.co/lldacing/flash-attention-windows-wheel/tree/main
2:找到跟你pip show torch 和 python版本对应的whl下载
3:安装:
pip install flash_attn-.....whl
复制代码
模型下载
这里需要下载的模型非常大:
Wan2.1-I2V-14B-720P:https://huggingface.co/Wan-AI/Wan2.1-I2V-14B-720P 或者 https://www.modelscope.cn/models/Wan-AI/Wan2.1-I2V-14B-720P
Wav2Vec:https://huggingface.co/facebook/wav2vec2-base-960h 或者 https://modelscope.cn/models/AI-ModelScope/wav2vec2-base-960h
FantasyTalking :https://huggingface.co/acvlab/FantasyTalking 或者 https://www.modelscope.cn/models/amap_cvlab/FantasyTalking/
特别是第一个模型,非常的大。下载后存放到相应位置:
./models/Wan2.1-I2V-14B-720P。
./models/wav2vec2-base-960h。
./models
复制代码
可以手动下载,也可以cli下载:
<img >
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-I2V-14B-720P --local-dir ./models/Wan2.1-I2V-14B-720P
huggingface-cli download facebook/wav2vec2-base-960h --local-dir ./models/wav2vec2-base-960h
huggingface-cli download acvlab/FantasyTalking fantasytalking_model.ckpt --local-dir ./models
复制代码
运行项目
<img >
pip install gradio spaces
python app.py
复制代码
查看结果
上传你的图片和音频,等待一段时间后,查看生成的视频。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
fantasy
talking
实现
图片
音频
相关帖子
在.NET中实现一库多租户(Single Database Multi-Tenancy)模式
vxe-gantt table 甘特图来实现多个维度视图展示,
短视频 / 图片不够清?SeedVR2.5 超分操作指南,一键拉满画质
C#AI系列(5): C#离线实现高效OCR
[dx12显示图片] ImGui Learn Data Day 3
电脑音频录制工具(语音聊天录音软件)
C语言实现单片机上的malloc函数功能
PostgreSQL数据库在Windows上实现异地自动备份指南-喂饭图文教程
解决 iOS 上 Swiper 滑动图片闪烁问题:原因分析与最有效的修复方式
Streamlit + LangChain 1.0 简单实现智能问答前后端
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
在.NET中实现一库多租户(Single Database Multi-Tenancy)模式
0
530
恙髡
2025-12-11
代码
vxe-gantt table 甘特图来实现多个维度视图展示,
0
134
忿惺噱
2025-12-12
业界
短视频 / 图片不够清?SeedVR2.5 超分操作指南,一键拉满画质
2
944
焦听云
2025-12-12
业界
C#AI系列(5): C#离线实现高效OCR
0
688
郏琼芳
2025-12-13
业界
[dx12显示图片] ImGui Learn Data Day 3
1
706
滕佩杉
2025-12-15
业界
电脑音频录制工具(语音聊天录音软件)
0
181
诸婉丽
2025-12-15
安全
C语言实现单片机上的malloc函数功能
1
349
咒卖箴
2025-12-15
业界
PostgreSQL数据库在Windows上实现异地自动备份指南-喂饭图文教程
0
521
姥恫
2025-12-15
业界
解决 iOS 上 Swiper 滑动图片闪烁问题:原因分析与最有效的修复方式
0
762
侧胥咽
2025-12-16
业界
Streamlit + LangChain 1.0 简单实现智能问答前后端
0
397
坐褐
2025-12-18
回复
(4)
昝沛珊
2025-10-20 08:44:56
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
过来提前占个楼
焦尔蕾
2025-10-28 05:26:03
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
分享、互助 让互联网精神温暖你我
愆蟠唉
2025-11-4 11:13:14
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
yyds。多谢分享
缄戈
2025-11-27 04:50:37
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
过来提前占个楼
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
孔季雅
2025-11-27 04:50:37
关注
0
粉丝关注
23
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994893
kk14977
6845358
4
xiangqian
638210
5
韶又彤
9997
6
宋子
9982
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9951
查看更多
今日好文热榜
342
数字人动画云端渲染方案
678
【强化学习笔记】从数学推导到电机控制:深
876
Docker安装Postgresql
586
使用Python免费合并PDF文件
433
【节点】[RGBtoLuminance节点]原理解析与实
137
还在痛苦前端的拖拽排序吗?SortableJS 轻
722
OpenCVSharp:HOG行人检测
246
剑指offer-52、正则表达式匹配
552
Python环境管理利器Conda:从入门到避坑实
68
MAF快速入门(7)工作流的状态共享
798
Python包管理告别龟速下载:uv工具国内镜像
752
深入理解Linux IPIP隧道:原理、配置与实战
195
HoughLinesP 霍夫变换 C++ opencv 内存报
734
RabbitMQ发布订阅模式同一消费者多个实例如
801
AICube数据集不合法清洗解决方法
603
Iceberg 在hadoop大数据数据湖领域这么火
980
背包DP
438
echarts中appendData的详细讲解
607
C++ 原子操作解析
802
Python - UV 为每个项目创建独立、干净的Py