Index-TTS：最逼真的Ai声音克隆

染罕习 · 2025-9-28 16:50:56

一、IndexTTS介绍

IndexTTS 是一种主要基于 XTTS 和 Tortoise 的 GPT 风格的文本转语音（TTS）模型。它能够使用拼音纠正汉字的发音，并通过标点符号控制任何位置的停顿。我们增强了系统的多个模块，包括扬声器条件特征表示的改进，以及集成 BigVGAN2 以优化音频质量。经过数万小时的数据训练，我们的系统实现了最先进的性能，优于当前流行的 TTS 系统，如 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS。

最近IndexTTS发布了最新的TTS-1.5模型，显著的提高了模型的稳定性和在英语语言中的性能表现。IndexTTS-1.5的语音克隆更加真实，语音克隆质量更高了。
项目主页：https://index-tts.github.io/
GitHub：https://github.com/index-tts/index-tts
硬件要求

操作系统：Windows 10/11 64 位，或 Ubuntu 22.04+
CPU：四核
内存：16 GB 及以上
显卡：最低 4 GB 显存即可启动
效果预览

墨彩环

目前最火的动漫是《凡人修仙传》，这里引用《墨彩环·凡尘叹》里面的独白

韩大哥……
我这一生，终究是没能追上你的脚步。
初见时，你只是个木讷的少年，沉默寡言，却总能在危急时护我周全。我以为，只要我足够努力，终有一天能站在你身旁，哪怕只是远远看着。
可后来才明白，原来这世上，有些人注定是仙，而有些人，只能是凡人。
你教我武功，赠我丹药，可我的灵根……终究是断了仙缘。我不甘心，真的不甘心！为何旁人能踏上长生路，而我却只能困在这凡尘，看着岁月一点点夺走容颜，而你……仍是当年模样。
我曾想，若我不是墨家小姐，若我也能修炼，是否就能陪你走得更远？可这世上，没有如果。
韩大哥，我知你心中大道至上，儿女情长不过是过眼云烟。可我还是会想，若有一日你登临绝巅，是否会偶尔想起，当年那个跟在你身后、唤你“韩大哥”的傻姑娘？
罢了……仙凡有别，本就是天道无情。
只愿来世……我能有灵根，哪怕只是最差的伪灵根，也好过此生，只能仰望你的背影，渐行渐远……

复制代码

听起来，效果都还不错。
台湾女生

‌场景：夜市奶茶摊前，女生对着闺蜜抱怨暧昧对象‌

"吼！你真的有够夸张欸——那个阿诚昨天又已读我！第三次了哦！（吸珍珠奶茶）啊不是说要约我去九份？现在连‘早安’都不传了是怎样？（跺脚）男生都酱紫啦，刚开始超热情，什么‘宝贝睡了吗’、‘吃饭了没’，现在咧？连贴图都懒得丢一个！（翻白眼）"
"诶你评评理啦！上次下雨天我特地绕去他公司送伞，结果他同事起哄说‘哇～女朋友喔？’，他居然给我回‘就...朋友啊’！（模仿男生挠头动作）靠北喔～谁跟你是‘就朋友’！我阿嬷泡的乌龙茶他都喝三罐了呀！（戳奶茶杯）"
"不管啦！这次他再不主动，我就...我就...（突然手机亮起）等等！他传讯息了！（快速擦手点开）‘在干吗？’...噗！又是这句！（抓头发）每次开场白都一毛一样，到底是有多词穷啦！（突然偷笑）不过...他加了一个爱心emoji欸...（捂脸扭动）啊啊啊，烦死了！我这样是不是很没出息？（戳闺蜜手臂）你快点骂醒我啦！"

复制代码

这个台湾女生，说话挺可爱的！

二、安装Index-TTS

环境说明

操作系统：windows 11家庭版
python版本：3.13.2
Anaconda：2025.06-0

硬件我已经满足最低需求，注意显卡必须要达到要求。
Microsoft C++ 生成工具

打开链接：https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/
下载生成工具
勾选C++组件

勾选linux c++组件

然后点击安装，等待20分钟左右安装完成。

注意，这个必须要安装，否则安装pynini会报错。
环境设置

1.下载仓库代码

git clone https://github.com/index-tts/index-tts.git

复制代码

2.安装依赖项

创建一个新的conda环境并安装依赖项：

conda create --prefix D:\file\conda\envs\index-tts python=3.13.2
conda activate D:\file\conda\envs\index-tts

复制代码

安装PyTorch，提供CUDA指令集架构，用来驱动英伟达显卡。

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128

复制代码

为了避免windows安装pynini遇到错误，通过conda安装pynini

conda install -c conda-forge pynini==2.1.6
pip install WeTextProcessing --no-deps

复制代码

安装IndexTTS依赖软件包

cd index-tts
pip install -e .

复制代码

3.下载模型

pip install modelscope
modelscope download --model IndexTeam/IndexTTS-1.5

复制代码

下载模型完成后，默认在用户目录，比如：C:\Users\xiao\.cache\modelscope\hub\IndexTeam/IndexTTS-1.5
将里面的文件，全部复制到github项目文件夹 index-tts\checkpoints里面。

运行web demo

python webui.py

复制代码

输出如下：

>> GPT weights restored from: checkpoints\gpt.pth
>> DeepSpeed加载失败，回退到标准推理: No module named 'deepspeed'
See more details https://www.deepspeed.ai/tutorials/advanced-install/
Detected CUDA files, patching ldflags
Emitting ninja build file C:\Users\xiao\Downloads\index-tts-main\indextts\BigVGAN\alias_free_activation\cuda\build\build.ninja...
信息: 用提供的模式无法找到文件。
>> Failed to load custom CUDA kernel for BigVGAN. Falling back to torch. Command '['where', 'cl']' returned non-zero exit status 1.
Reinstall with `pip install -e . --no-deps --no-build-isolation` to prebuild `anti_alias_activation_cuda` kernel.
See more details: https://github.com/index-tts/index-tts/issues/164#issuecomment-2903453206
Removing weight norm...
>> bigvgan weights restored from: checkpoints\bigvgan_generator.pth
2025-08-15 17:00:07,635 WETEXT INFO found existing fst: C:\Users\xiao\Downloads\index-tts-main\indextts\utils\tagger_cache\zh_tn_tagger.fst
2025-08-15 17:00:07,636 WETEXT INFO C:\Users\xiao\Downloads\index-tts-main\indextts\utils\tagger_cache\zh_tn_verbalizer.fst
2025-08-15 17:00:07,636 WETEXT INFO skip building fst for zh_normalizer ...
2025-08-15 17:00:10,108 WETEXT INFO found existing fst: D:\file\conda\envs\my_unsloth_env\Lib\site-packages\tn\en_tn_tagger.fst
2025-08-15 17:00:10,109 WETEXT INFO D:\file\conda\envs\my_unsloth_env\Lib\site-packages\tn\en_tn_verbalizer.fst
2025-08-15 17:00:10,109 WETEXT INFO skip building fst for en_normalizer ...
>> TextNormalizer loaded
>> bpe model loaded from: checkpoints\bpe.model
* Running on local URL: http://127.0.0.1:7860
* To create a public link, set `share=True` in `launch()`.

复制代码

注意：这里输出的一些警告信息，不用管。
只要能出现http://127.0.0.1:7860，就说明运行成功了。

三、生成语音

墨彩环

打开页面：http://127.0.0.1:7860，效果如下：

上传参考音频，文件： https://res.wx.qq.com/voice/getvoice?mediaid=MzkxNzYzODgwN18yMjQ3NDkxMDAw
输入文章开头的文本
最后点击生成语音

等待10分钟左右，就完成了。
完成后，可以试听，也可以点击右边的下载

播放音频

效果，就是文章开头的展现的。

台湾女声

打开迅雷网盘，https://pan.xunlei.com/s/VOU-NFxruAdJSBAnyq_JPFs7A1?pwd=p5sz
下载音源

解压之后，选择这个

然后上传音源，输入文本

吼！你真的有够夸张欸
那个阿诚昨天又已读我！第三次了哦！
啊，不是说要约我去九份？现在连‘早安’都不传了是怎样？
男生都酱紫啦，刚开始超热情，什么‘宝贝睡了吗’、‘吃饭了没’，现在咧？连贴图都懒得丢一个！
诶，你评评理啦！上次下雨天我特地绕去他公司送伞，结果他同事起哄，说‘哇～女朋友喔？’，他居然给我回‘就...朋友啊’！
靠北喔～谁跟你是‘就朋友’！我阿嬷泡的乌龙茶他都喝三罐了呀！
不管啦！这次他再不主动，我就...我就...
等等！他传讯息了！
‘在干吗？’...噗！又是这句！
每次开场白都一毛一样，到底是有多词穷啦！
不过...他加了一个爱心欸...
啊啊啊...烦死了！我这样是不是很没出息？
你快点骂醒我啦！

复制代码

最后点击生成语音

等待10分钟，效果如下：

本文参考链接：
https://zhuanlan.zhihu.com/p/1924169140605813757

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

孜尊 · 2025-10-11 18:38:57

yyds。多谢分享

缄戈 · 2025-10-11 22:50:22

感谢分享

寨亳 · 7 天前

这个有用。

账号		自动登录	找回密码
密码			立即注册

Index-TTS：最逼真的Ai声音克隆

相关帖子

回复

签约作者

Index-TTS：最逼真的Ai声音克隆

相关帖子

相关推荐

回复

签约作者