找回密码
 立即注册
首页 业界区 业界 音频克隆阿里版-CosyVoice

音频克隆阿里版-CosyVoice

僭墙覆 5 小时前
 
前面介绍过了音频克隆
 
IndexTTS: https://www.cnblogs.com/cj8988/p/18973016
ComfyUI_IndexTTS: https://www.cnblogs.com/cj8988/p/18973609
GPT-SoVITS:https://www.cnblogs.com/cj8988/p/18962212
 
今天再介绍要给音频克隆的开源工具:https://github.com/FunAudioLLM/CosyVoice
 
1.png

 
CosyVoice 是阿里云通义语音实验室研发的新一代生成式语音大模型,旨在提供高度拟人化、自然流畅的语音合成体验。
它将文本理解和语音生成技术深度融合,能够精准解析并诠释各种文本内容,将其转化为如同真人发声般的自然语音。
 
多样化的推理模式:

  • 预训练音色: 提供多种预设的音色供用户选择,满足不同场景下的个性化需求(例如新闻播报、故事讲述等)。
  • 3s 极速复刻 (Zero-shot Voice Cloning): 仅需 3 秒的参考音频,就能快速克隆出特定说话人的音色,并用这个音色合成任意文本。这极大地降低了音色定制的门槛。
  • 跨语种复刻 (Cross-lingual Voice Cloning): 能够使用一种语言的语音样本来合成另一种语言的文本,同时保留原始说话人的音色和部分韵律特征。这是一个非常强大的功能,尤其适用于多语言内容创作。
  • 自然语言控制 (Instructed Voice Generation): 允许用户通过自然语言描述(如“用高兴的语气说”、“语速快一点”)来控制语音的风格、情感、语速、音调等,提供了更直观和灵活的控制方式。
  • 多语言和混合语言支持: 除了中文外,还支持英文、日文、韩文以及多种中文方言(粤语、四川话、上海话、天津话、武汉话等),并支持跨语种和混合语言场景下的零样本语音克隆
 
安装:

代码下载:https://github.com/FunAudioLLM/CosyVoice
 
  1. #虚拟环境搭建
  2. conda create -n cosyvoice -y python=3.10
  3. conda activate cosyvoice
  4. pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
复制代码
 
 
  1. #模型下载,这里下载最新的2.0模型
  2. mkdir -p pretrained_models
  3. #也可手动下载,然后放入相应位置就行 pretrained_models/CosyVoice2-0.5B
复制代码
  1. git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained_models/CosyVoice2-0.5B
复制代码
 
 
  1. #运行:
  2. python webui.py
复制代码
 
 
可能出现的问题:没有找到cosyvoice.yaml。

  1. 修改一下:cosyvoice.py  中 __init__()  大约34行:添加一个
复制代码
if not os.path.exists(model_dir):
              model_dir = snapshot_download(model_dir)

        hyper_yaml_path = '{}/cosyvoice.yaml'.format(model_dir)

        if not os.path.exists(hyper_yaml_path):
              hyper_yaml_path = '{}/cosyvoice2.yaml'.format(model_dir)
 
 

 

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
您需要登录后才可以回帖 登录 | 立即注册