汪玉珂 发表于 2025-5-31 22:54:11

使用FastSpeech2进行语音合成

这里介绍下如何通过FastSpeech2项目进行中文的语音合成,由于该仓库把相关demo数据也提交了,因此仓库比较大。此时可以使用sparse-checkout拉取相关的代码,而忽略一些无关紧要的目录。
要确保git的版本大于2.25,可以使用git version进行查看。
接着就开始代码的拉取:
git clone --filter=blob:none --depth=1 --no-checkout https://github.com/ming024/FastSpeech2
cd FastSpeech2
git sparse-checkout init --cone接着修改.git/info/sparse-checkout中的内容为:
/*
!/demo/
/preprocessed_data/*/*.json最后进行git checkout即可。
之后就是对应模型的下载了,可以访问FastSpeech2进行对应模型的下载,密码是9615。其中AISHELL-3是中文多人,LJSpeech是英文单人,LibriTTS是英文多人。
将下载的模型放置在目录output/ckpt对应目录下,也不知道为何要搞这么复杂。只能手动创建对应的目录:
mkdir -p output/ckpt/{AISHELL3,LJSpeech,LibriTTS}
mkdir -p output/result/{AISHELL3,LJSpeech,LibriTTS}需要注意的是,放置在目录中的文件必须是pth.tar后缀结尾,且需要去掉之前的语料库名称只保留数字即可,比如LJSpeech_900000.zip需要变为900000.pth.tar。
一切准备就绪,就可以开始推理了。这里使用GPU进行推理:
$ python synthesize.py --text "哈哈,我是个传说的人物" --speaker_id 0 --restore_step 600000 --mode single -p config/AISHE
LL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml最终的效果如下:

可以听见机械音还是有点重的。
当然也可以参考之前写的另一篇使用原神中人物的语音合成,相对来说效果会更好一些。详情请点击。
参考文章:
https://youwu.today/blog/git-sparse-checkout-for-partial-repository-clone/

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

向梦桐 发表于 2025-10-22 00:51:46

热心回复!

浦乐 发表于 2025-11-6 22:45:05

感谢分享

羔迪 发表于 2025-12-15 21:11:10

谢谢分享,辛苦了

南宫玉英 发表于 2025-12-17 21:37:09

懂技术并乐意极积无私分享的人越来越少。珍惜

呶募妙 发表于 2026-1-14 19:40:03

谢谢分享,试用一下

倡粤 发表于 2026-1-15 18:16:36

很好很强大我过来先占个楼 待编辑

哈妙思 发表于 2026-1-17 22:56:16

感谢,下载保存了

当贵 发表于 2026-1-18 20:14:44

这个好,看起来很实用

嗣伐 发表于 2026-1-21 04:05:07

用心讨论,共获提升!

炳裘垦 发表于 2026-2-1 13:05:56

yyds。多谢分享

馑妣窟 发表于 2026-2-3 03:29:12

鼓励转贴优秀软件安全工具和文档!

幌斛者 发表于 2026-2-4 10:43:09

谢谢分享,辛苦了

鞭氅 发表于 2026-2-5 06:19:07

yyds。多谢分享

呵烘稿 发表于 2026-2-5 11:29:27

yyds。多谢分享

阎怀慕 发表于 2026-2-6 12:06:41

前排留名,哈哈哈

准挝 发表于 2026-2-8 06:54:56

东西不错很实用谢谢分享

鞣谘坡 发表于 2026-2-8 09:38:59

谢谢楼主提供!

坡琨 发表于 2026-2-8 14:28:41

用心讨论,共获提升!

史穹逊 发表于 2026-2-8 15:20:19

东西不错很实用谢谢分享
页: [1] 2
查看完整版本: 使用FastSpeech2进行语音合成