音频克隆阿里版-CosyVoice

僭墙覆 · 2025-7-9 16:52:39

前面介绍过了音频克隆

IndexTTS： https://www.cnblogs.com/cj8988/p/18973016
ComfyUI_IndexTTS： https://www.cnblogs.com/cj8988/p/18973609
GPT-SoVITS：https://www.cnblogs.com/cj8988/p/18962212

今天再介绍要给音频克隆的开源工具：https://github.com/FunAudioLLM/CosyVoice

CosyVoice 是阿里云通义语音实验室研发的新一代生成式语音大模型，旨在提供高度拟人化、自然流畅的语音合成体验。
它将文本理解和语音生成技术深度融合，能够精准解析并诠释各种文本内容，将其转化为如同真人发声般的自然语音。

多样化的推理模式：

预训练音色： 提供多种预设的音色供用户选择，满足不同场景下的个性化需求（例如新闻播报、故事讲述等）。
3s 极速复刻 (Zero-shot Voice Cloning)： 仅需 3 秒的参考音频，就能快速克隆出特定说话人的音色，并用这个音色合成任意文本。这极大地降低了音色定制的门槛。
跨语种复刻 (Cross-lingual Voice Cloning)： 能够使用一种语言的语音样本来合成另一种语言的文本，同时保留原始说话人的音色和部分韵律特征。这是一个非常强大的功能，尤其适用于多语言内容创作。
自然语言控制 (Instructed Voice Generation)： 允许用户通过自然语言描述（如“用高兴的语气说”、“语速快一点”）来控制语音的风格、情感、语速、音调等，提供了更直观和灵活的控制方式。
多语言和混合语言支持： 除了中文外，还支持英文、日文、韩文以及多种中文方言（粤语、四川话、上海话、天津话、武汉话等），并支持跨语种和混合语言场景下的零样本语音克隆

安装：

代码下载：https://github.com/FunAudioLLM/CosyVoice

#虚拟环境搭建
conda create -n cosyvoice -y python=3.10
conda activate cosyvoice
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

复制代码

#模型下载，这里下载最新的2.0模型
mkdir -p pretrained_models
#也可手动下载，然后放入相应位置就行 pretrained_models/CosyVoice2-0.5B

复制代码

git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained_models/CosyVoice2-0.5B

复制代码

#运行：
python webui.py

复制代码

可能出现的问题：没有找到cosyvoice.yaml。

修改一下：cosyvoice.py 中 __init__() 大约34行：添加一个

复制代码

if not os.path.exists(model_dir):
         　　model_dir = snapshot_download(model_dir)

      hyper_yaml_path = '{}/cosyvoice.yaml'.format(model_dir)

      if not os.path.exists(hyper_yaml_path):
         　　hyper_yaml_path = '{}/cosyvoice2.yaml'.format(model_dir)

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

驶桐柢 · 2025-11-6 17:50:53

谢谢分享，辛苦了

呶募妙 · 2025-11-10 22:15:05

感谢发布原创作品，程序园因你更精彩

吟氅 · 2025-12-1 01:36:07

这个有用。

公西颖初 · 3 天前

yyds。多谢分享

账号		自动登录	找回密码
密码			立即注册

音频克隆阿里版-CosyVoice

相关帖子

回复

签约作者

音频克隆阿里版-CosyVoice

相关帖子

相关推荐

回复

签约作者