圉棺 发表于 2025-7-30 22:30:12

TTS-1技术报告:基于Transformer的文本转语音模型

TTS-1技术报告

我们介绍了Inworld TTS-1,这是一组两个基于Transformer的自回归文本转语音(TTS)模型。我们最大的模型TTS-1-Max拥有88亿参数,专为要求苛刻的应用场景提供最高质量和表现力。TTS-1是我们最高效的模型,具有16亿参数,专为实时语音合成和边缘设备用例而构建。
通过扩展训练计算量并应用语音语言模型(SpeechLM)组件的预训练、微调和RL对齐的序列化流程,这两个模型在各种基准测试中都实现了最先进的性能,仅依靠说话者语音的上下文学习就展现出卓越的质量。
Inworld TTS-1和TTS-1-Max能够以低延迟生成48kHz高分辨率语音,支持11种语言,并通过音频标记实现精细的情感控制和非语言发声。我们还以MIT许可证开源了训练和建模代码。
技术细节


[*]模型架构:基于Transformer的自回归模型
[*]参数量:TTS-1-Max(8.8B)/TTS-1(1.6B)
[*]采样率:48kHz高分辨率音频
[*]支持语言:11种
[*]特色功能:音频标记控制、情感表达、非语言发声
[*]训练流程:预训练→微调→RL对齐三阶段
[*]开源协议:MIT许可证
性能表现

模型在多项基准测试中达到state-of-the-art水平,完全基于上下文学习实现高质量的语音合成。特别在以下方面表现突出:

[*]语音自然度和表现力
[*]多语言支持能力
[*]低延迟实时生成
[*]边缘设备部署效率
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码


来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
页: [1]
查看完整版本: TTS-1技术报告:基于Transformer的文本转语音模型