管家级教程：在 Windows 上配置 WSL2、CUDA 及 VLLM,开源音频克隆项目

愤血冒 发表于 2025-9-26 11:52:25

ok，那么今天给大家分享一下之前看到过的一个音频克隆项目使用体验音色效果没有那么高的效果，不过开源嘛，搞来玩一玩试看看。源地址： https://github.com/index-tts/index-tts 关于IndexTTSIndexTTS是一个基于 GPT 风格的文本转语音 (TTS) 模型，主要基于 XTTS 和 Tortoise 算法。它能够通过拼音纠正汉字发音，并通过标点符号控制任意位置的停顿。我们增强了系统的多个模块，包括改进说话人条件特征表示，并集成 BigVGAN2 以优化音频质量。我们的系统基于数万小时的数据进行训练，达到了最佳性能，超越了目前流行的 TTS 系统，例如 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS。源项目基于torch ,本文实践项目是改用VLLM进行的项目https://github.com/Ksuriuri/index-tts-vllmvllm暂不支持windows运行，所以需要通过wsl 虚拟机虚拟linux系统目前wsl主力版本为wsl2所以我们采用wsl2 需要的设备与流程：

[*]足够的存储空间
[*]显卡支持CUDA，同样意味着显存也要够大
[*]安装WLS2，安装配置pip
[*]安装uv，g++，cuda-tookit配置工具
[*]配置虚拟环境，安装requirements
[*]下载模型文件，转义模型文件
[*]运行webui.py
确认开启hyper-v

https://jg3p0gz06cr.sg.larksuite.com/space/api/box/stream/download/asynccode/?code=ZTY5OTAzNmE5ZTdiYzVhMTA4NDJmNWI5ZGE1ZDU5NWZfaVd2RW9SMmhLQlZUeEZyNG0xeDNqaDRpWnk4YXhETE1fVG9rZW46UnRtamIxZVJIb3hqZ3d4ODMzc2xlT0hFZzFlXzE3NTQ0NjE4NTA6MTc1NDQ2NTQ1MF9WNA安装WSL2

管理员身份下运行

自行开启魔法，以防被443拒绝wsl --install手动安装指定版本也可以选择其他

wsl --install Ubuntu-22.04安装完往后可以在开始菜单找到并且固定https://jg3p0gz06cr.sg.larksuite.com/space/api/box/stream/download/asynccode/?code=NDI0Yjg4ZTMxZDQ2MmRlNTU3NTRhZTIzMTU3NmFhMTBfZUhiV055eEROUzdnVWg3dk1OdGdBcUt5NHd4NVlZY3ZfVG9rZW46RTFEd2JtbEpSb2dzSVd4VUhKMGx4cm5lZzhjXzE3NTQ0NjE4NTA6MTc1NDQ2NTQ1MF9WNA也可以通过命令行启动安装和配置pip

在刚安装好的虚拟机里面进行安装https://jg3p0gz06cr.sg.larksuite.com/space/api/box/stream/download/asynccode/?code=ZmIxMmI3NjRhYzBjNzY3MDJhNzQwNWY3OWI4OTc0NzJfZlVMVkVRTXFaN1ZBNVhRY1Q5amxtSUNkV1hnNGxZYmNfVG9rZW46WFZ2SWJiMlRBb0N6TTh4bWY3WmxITENIZ1pmXzE3NTQ0NjE4NTA6MTc1NDQ2NTQ1MF9WNA修改为国内镜像# 默认注释了源码镜像以提高 apt update 速度，如有需要可自行取消注释
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy main restricted universe multiverse
# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy-updates main restricted universe multiverse
# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy-updates main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy-backports main restricted universe multiverse
# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy-backports main restricted universe multiverse

# 以下安全更新软件源包含了官方源与镜像站配置，如有需要可自行修改注释切换
deb http://security.ubuntu.com/ubuntu/ jammy-security main restricted universe multiverse
# deb-src http://security.ubuntu.com/ubuntu/ jammy-security main restricted universe multiverse

# 预发布软件源，不建议启用
# deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy-proposed main restricted universe multiverse
# # deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy-proposed main restricted universe multiverse编辑文件 vi/etc/apt/sources.list文件sudo vi /etc/apt/sources.listWSL2安装Debian(Ubuntu)并配置国内apt源 - 知乎NVIDA CUDA 12.9 toolkitWsl 安装cuda-toolkit

wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install cuda-toolkit-12-9Nvidia参考文档wsl配置环境变量

export CUDA_HOME="/usr/local/cuda-12.9"
export PATH="/usr/local/cuda-12.9/bin:$PATH"输入一下命令确保oknvidia-smihttps://jg3p0gz06cr.sg.larksuite.com/space/api/box/stream/download/asynccode/?code=ZGViNjZlYjA5NzRkNzFkZjgyOWU3ZDI5MDdkNzE5ZjBfVjcyZHlpU0dUQWtESXlBWU9pcTVDdmpSdjZybFpEd21fVG9rZW46TmlYMWJnNExZb3NiRll4Z3dtWWxTV2FZZ21kXzE3NTQ0NjE4NTA6MTc1NDQ2NTQ1MF9WNA配置克隆项目

git clone https://github.com/Ksuriuri/index-tts-vllm.git进入工作目录

cd index-tts-vllm创建uv虚拟环境

un .venv设置python版本

uv python install 3.10安装依赖包

uv pip install -r requirements.txt下载模型权重

地址模型权重转换

需要转换为transformers库兼容的版本，bash convert_hf_format.sh /path/to/your/model_dir/path/to/your/model_dir 需要修改成你需要保存的位置这个是我的
bash convert_hf_format.sh /home/leia/IndexTTS-1.5/将项目中的webui.py的model_dir修改为模型权重下载路径 https://jg3p0gz06cr.sg.larksuite.com/space/api/box/stream/download/asynccode/?code=YzVkOGUyMGI4YmRkMDZmY2JiNjhhMGIxMDZjZWNjYmVfY3JPQlBZQmJyaXRWMWJQMWRkTWxWcFJuVmt2WmNxQ3pfVG9rZW46U3BPN2JqbjRzb2tVdUR4SldSUmxwamNLZzA3XzE3NTQ0NjE4NTA6MTc1NDQ2NTQ1MF9WNA运行下命令启动程序VLLM_USE_V1=0 python webui.py往后再启动就是leia@leia:~/index-tts-vllm$ source .venv/bin/activate.venv 为我们创建的虚拟环境运行成功的截图https://jg3p0gz06cr.sg.larksuite.com/space/api/box/stream/download/asynccode/?code=ZDQzNGUwNDVjNjMyZGIxNmI0YzkyNDEyOWRkZmE4ZTRfOXJKMmw0dVF5eTBSZVdYeXJJSnlCaGZGUDlrczlLZGtfVG9rZW46Q21ETWJtQ1hLb2tVNWd4RjZxSWxjZHJ3ZzdmXzE3NTQ0NjE4NTA6MTc1NDQ2NTQ1MF9WNAhttps://jg3p0gz06cr.sg.larksuite.com/space/api/box/stream/download/asynccode/?code=ZjQ5MjAwZGM0MDVjOGFkNGM4ODNmMmY1OGFhMjA0MmJfSkZlZVFPRUhVa1BTUjZ5em5rbng2dDVmd1dKRU1uSlNfVG9rZW46UHFxbWJqM1c4b1dzYWp4a3pYSWxjeGMyZ1ViXzE3NTQ0NjE4NTA6MTc1NDQ2NTQ1MF9WNAAPI支持

该项目使用fastapi封装了api接口，调用如下命令可以启动相关示例：VLLM_USE_V1=0 python api_server.py --model_dir /home/leia/IndexTTS-1.5 --port 11996编写如下python文件testindex-tts-vllm.py，import requests

url = "http://127.0.0.1:11996/tts_url"
data = {
"text": "你好，我叫leia，很高兴认识你",
"audio_paths": [
   "spk_1234232323.wav",
   "spk_2344423234.wav"
]
}

response = requests.post(url, json=data)
with open("output.wav", "wb") as f:
f.write(response.content)
来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

页: [1]

程序园's Archiver

管家级教程：在 Windows 上配置 WSL2、CUDA 及 VLLM,开源音频克隆项目