找回密码
 立即注册
首页 业界区 业界 Index-TTS:最逼真的Ai声音克隆

Index-TTS:最逼真的Ai声音克隆

染罕习 2025-9-28 16:50:56
一、IndexTTS介绍

IndexTTS 是一种主要基于 XTTS 和 Tortoise 的 GPT 风格的文本转语音 (TTS) 模型。它能够使用拼音纠正汉字的发音,并通过标点符号控制任何位置的停顿。我们增强了系统的多个模块,包括扬声器条件特征表示的改进,以及集成 BigVGAN2 以优化音频质量。经过数万小时的数据训练,我们的系统实现了最先进的性能,优于当前流行的 TTS 系统,如 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS。
1.png

最近IndexTTS发布了最新的TTS-1.5模型,显著的提高了模型的稳定性和在英语语言中的性能表现。IndexTTS-1.5的语音克隆更加真实,语音克隆质量更高了。
项目主页:https://index-tts.github.io/
GitHub:https://github.com/index-tts/index-tts
硬件要求

操作系统:Windows 10/11 64 位,或 Ubuntu 22.04+
CPU:四核
内存:16 GB 及以上
显卡:最低 4 GB 显存即可启动
效果预览

墨彩环

目前最火的动漫是《凡人修仙传》,这里引用《墨彩环·凡尘叹》里面的独白
  1. 韩大哥……
  2. 我这一生,终究是没能追上你的脚步。
  3. 初见时,你只是个木讷的少年,沉默寡言,却总能在危急时护我周全。我以为,只要我足够努力,终有一天能站在你身旁,哪怕只是远远看着。
  4. 可后来才明白,原来这世上,有些人注定是仙,而有些人,只能是凡人。
  5. 你教我武功,赠我丹药,可我的灵根……终究是断了仙缘。我不甘心,真的不甘心!为何旁人能踏上长生路,而我却只能困在这凡尘,看着岁月一点点夺走容颜,而你……仍是当年模样。
  6. 我曾想,若我不是墨家小姐,若我也能修炼,是否就能陪你走得更远?可这世上,没有如果。
  7. 韩大哥,我知你心中大道至上,儿女情长不过是过眼云烟。可我还是会想,若有一日你登临绝巅,是否会偶尔想起,当年那个跟在你身后、唤你“韩大哥”的傻姑娘?
  8. 罢了……仙凡有别,本就是天道无情。
  9. 只愿来世……我能有灵根,哪怕只是最差的伪灵根,也好过此生,只能仰望你的背影,渐行渐远……
复制代码
 

 听起来,效果都还不错。
台湾女生

‌场景:夜市奶茶摊前,女生对着闺蜜抱怨暧昧对象‌
  1. "吼!你真的有够夸张欸——那个阿诚昨天又已读我!第三次了哦!(吸珍珠奶茶)啊不是说要约我去九份?现在连‘早安’都不传了是怎样?(跺脚)男生都酱紫啦,刚开始超热情,什么‘宝贝睡了吗’、‘吃饭了没’,现在咧?连贴图都懒得丢一个!(翻白眼)"
  2. "诶你评评理啦!上次下雨天我特地绕去他公司送伞,结果他同事起哄说‘哇~女朋友喔?’,他居然给我回‘就...朋友啊’!(模仿男生挠头动作)靠北喔~谁跟你是‘就朋友’!我阿嬷泡的乌龙茶他都喝三罐了呀!(戳奶茶杯)"
  3. "不管啦!这次他再不主动,我就...我就...(突然手机亮起)等等!他传讯息了!(快速擦手点开)‘在干吗?’...噗!又是这句!(抓头发)每次开场白都一毛一样,到底是有多词穷啦!(突然偷笑)不过...他加了一个爱心emoji欸...(捂脸扭动)啊啊啊,烦死了!我这样是不是很没出息?(戳闺蜜手臂)你快点骂醒我啦!"
复制代码
 

这个台湾女生,说话挺可爱的!
 
二、安装Index-TTS

环境说明

操作系统:windows 11家庭版
python版本:3.13.2
Anaconda:2025.06-0
 
硬件我已经满足最低需求,注意显卡必须要达到要求。
Microsoft C++ 生成工具

打开链接:https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/
下载生成工具
勾选C++组件
2.png

 勾选linux c++组件
3.png

 然后点击安装,等待20分钟左右安装完成。
 
注意,这个必须要安装,否则安装pynini会报错。
环境设置

1.下载仓库代码
  1. git clone https://github.com/index-tts/index-tts.git
复制代码
 
2.安装依赖项

创建一个新的conda环境并安装依赖项:
  1. conda create --prefix D:\file\conda\envs\index-tts python=3.13.2
  2. conda activate D:\file\conda\envs\index-tts
复制代码
 
安装PyTorch,提供CUDA指令集架构,用来驱动英伟达显卡。
  1. pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
复制代码
 
为了避免windows安装pynini遇到错误,通过conda安装pynini
  1. conda install -c conda-forge pynini==2.1.6
  2. pip install WeTextProcessing --no-deps
复制代码
 
安装IndexTTS依赖软件包
  1. cd index-tts
  2. pip install -e .
复制代码
3.下载模型
  1. pip install modelscope
  2. modelscope download --model IndexTeam/IndexTTS-1.5
复制代码
下载模型完成后,默认在用户目录,比如:C:\Users\xiao\.cache\modelscope\hub\IndexTeam/IndexTTS-1.5
将里面的文件,全部复制到github项目文件夹 index-tts\checkpoints里面。
4.png

 运行web demo
  1. python webui.py
复制代码
输出如下:
  1. >> GPT weights restored from: checkpoints\gpt.pth
  2. >> DeepSpeed加载失败,回退到标准推理: No module named 'deepspeed'
  3. See more details https://www.deepspeed.ai/tutorials/advanced-install/
  4. Detected CUDA files, patching ldflags
  5. Emitting ninja build file C:\Users\xiao\Downloads\index-tts-main\indextts\BigVGAN\alias_free_activation\cuda\build\build.ninja...
  6. 信息: 用提供的模式无法找到文件。
  7. >> Failed to load custom CUDA kernel for BigVGAN. Falling back to torch. Command '['where', 'cl']' returned non-zero exit status 1.
  8. Reinstall with `pip install -e . --no-deps --no-build-isolation` to prebuild `anti_alias_activation_cuda` kernel.
  9. See more details: https://github.com/index-tts/index-tts/issues/164#issuecomment-2903453206
  10. Removing weight norm...
  11. >> bigvgan weights restored from: checkpoints\bigvgan_generator.pth
  12. 2025-08-15 17:00:07,635 WETEXT INFO found existing fst: C:\Users\xiao\Downloads\index-tts-main\indextts\utils\tagger_cache\zh_tn_tagger.fst
  13. 2025-08-15 17:00:07,636 WETEXT INFO                     C:\Users\xiao\Downloads\index-tts-main\indextts\utils\tagger_cache\zh_tn_verbalizer.fst
  14. 2025-08-15 17:00:07,636 WETEXT INFO skip building fst for zh_normalizer ...
  15. 2025-08-15 17:00:10,108 WETEXT INFO found existing fst: D:\file\conda\envs\my_unsloth_env\Lib\site-packages\tn\en_tn_tagger.fst
  16. 2025-08-15 17:00:10,109 WETEXT INFO                     D:\file\conda\envs\my_unsloth_env\Lib\site-packages\tn\en_tn_verbalizer.fst
  17. 2025-08-15 17:00:10,109 WETEXT INFO skip building fst for en_normalizer ...
  18. >> TextNormalizer loaded
  19. >> bpe model loaded from: checkpoints\bpe.model
  20. * Running on local URL:  http://127.0.0.1:7860
  21. * To create a public link, set `share=True` in `launch()`.
复制代码
注意:这里输出的一些警告信息,不用管。
只要能出现http://127.0.0.1:7860,就说明运行成功了。
 
三、生成语音

墨彩环

打开页面:http://127.0.0.1:7860,效果如下:
5.png

 
上传参考音频,文件: https://res.wx.qq.com/voice/getvoice?mediaid=MzkxNzYzODgwN18yMjQ3NDkxMDAw
输入文章开头的文本
最后点击生成语音
6.png

 等待10分钟左右,就完成了。
完成后,可以试听,也可以点击右边的下载
7.png

 播放音频
8.png

效果,就是文章开头的展现的。
 
台湾女声

 打开迅雷网盘,https://pan.xunlei.com/s/VOU-NFxruAdJSBAnyq_JPFs7A1?pwd=p5sz
下载音源
9.png

解压之后,选择这个
10.png

然后上传音源,输入文本
  1. 吼!你真的有够夸张欸
  2. 那个阿诚昨天又已读我!第三次了哦!
  3. 啊,不是说要约我去九份?现在连‘早安’都不传了是怎样?
  4. 男生都酱紫啦,刚开始超热情,什么‘宝贝睡了吗’、‘吃饭了没’,现在咧?连贴图都懒得丢一个!
  5. 诶,你评评理啦!上次下雨天我特地绕去他公司送伞,结果他同事起哄,说‘哇~女朋友喔?’,他居然给我回‘就...朋友啊’!
  6. 靠北喔~谁跟你是‘就朋友’!我阿嬷泡的乌龙茶他都喝三罐了呀!
  7. 不管啦!这次他再不主动,我就...我就...
  8. 等等!他传讯息了!
  9. ‘在干吗?’...噗!又是这句!
  10. 每次开场白都一毛一样,到底是有多词穷啦!
  11. 不过...他加了一个爱心欸...
  12. 啊啊啊...烦死了!我这样是不是很没出息?
  13. 你快点骂醒我啦!
复制代码
最后点击生成语音
11.png

 等待10分钟,效果如下:

 
本文参考链接:
https://zhuanlan.zhihu.com/p/1924169140605813757
 

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

相关推荐

您需要登录后才可以回帖 登录 | 立即注册