登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
博客
发1篇日志+1圆
记录
发1条记录+2圆币
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
VIP网盘
VIP申请
网盘
联系我们
道具
勋章
任务
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
TTS-1技术报告:基于Transformer的文本转语音模型 ...
TTS-1技术报告:基于Transformer的文本转语音模型
[ 复制链接 ]
圉棺
前天 22:30
TTS-1技术报告
我们介绍了Inworld TTS-1,这是一组两个基于Transformer的自回归文本转语音(TTS)模型。我们最大的模型TTS-1-Max拥有88亿参数,专为要求苛刻的应用场景提供最高质量和表现力。TTS-1是我们最高效的模型,具有16亿参数,专为实时语音合成和边缘设备用例而构建。
通过扩展训练计算量并应用语音语言模型(SpeechLM)组件的预训练、微调和RL对齐的序列化流程,这两个模型在各种基准测试中都实现了最先进的性能,仅依靠说话者语音的上下文学习就展现出卓越的质量。
Inworld TTS-1和TTS-1-Max能够以低延迟生成48kHz高分辨率语音,支持11种语言,并通过音频标记实现精细的情感控制和非语言发声。我们还以MIT许可证开源了训练和建模代码。
技术细节
模型架构:基于Transformer的自回归模型
参数量:TTS-1-Max(8.8B)/TTS-1(1.6B)
采样率:48kHz高分辨率音频
支持语言:11种
特色功能:音频标记控制、情感表达、非语言发声
训练流程:预训练→微调→RL对齐三阶段
开源协议:MIT许可证
性能表现
模型在多项基准测试中达到state-of-the-art水平,完全基于上下文学习实现高质量的语音合成。特别在以下方面表现突出:
语音自然度和表现力
多语言支持能力
低延迟实时生成
边缘设备部署效率
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
圉棺
前天 22:30
关注
0
粉丝关注
9
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
敖可
9984
凶契帽
9990
黎瑞芝
9990
4
杭环
9988
5
猷咎
9988
6
鲫疹
9988
7
接快背
9988
8
里豳朝
9988
9
处匈跑
9988
10
氛疵
9988
查看更多