设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
阿里 Qwen3-TTS 登场:49 种音色 + 10 语言 9 方言,WER ...
返回列表
发布新帖
查看:
9
|
回复:
0
[人工智能]
阿里 Qwen3-TTS 登场:49 种音色 + 10 语言 9 方言,WER 碾压主流商用模型
JQR1
JQR1
当前离线
UID
9
星火
贡献
奖金
发表于
前天 15:30
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
阿里巴巴正式推出 Qwen3家族最新成员 Qwen3-TTS,主打“零样本、多角色、跨语言”语音合成。新模型在词错误率(WER)国际基准上显著优于主流商用引擎,同步上线阿里云控制台,开发者可0元调用100万字符额度。
49种高品质音色,一键切换角色
从温柔少女到方言大叔,Qwen3-TTS 内置49种官方音色,覆盖旁白、客服、直播、教育等场景;支持10种语言 +9种中国方言(粤语、四川话、东北话等),同一文本可秒级切换音色,无需重新训练。
文本→语气→节奏,全自动“拟人化”
模型采用自回归声学模型 + 韵律预测模块,可根据标点、情感标签自动升降调、插入停顿;在48kHz 采样率下,MOS 得分达4.53,显著高于行业平均4.1。
WER 显著优于商用模型
在多语言语音合成公开测试集(MLS + Common Voice)上,Qwen3-TTS 英文 WER 降至2.8%,中文1.9%,较 Azure TTS 再降18% 与24%,刷新开源 SOTA。
教育场景“零样本”落地
阿里云同步发布“一键朗读”插件,教师上传 PPT 即可自动生成带方言的讲解音频,目前已在上海120所中小学试点,帮助学生用“家乡话”听写单词。
定价与入口
- 免费层:100万字符/月,49种音色不限调用
- 付费层:0.8元/万字符,支持 SSML 与实时流式合成
- 控制台:console.aliyun.com → 人工智能 → 语音合成 → Qwen3-TTS(已全量)
下一步计划
阿里透露,2025Q1将开放“10秒音色克隆”接口,用户上传短音频即可生成私有说话人,并推出80kHz 超采样版本,瞄准播客、有声书与虚拟偶像市场。
行业观察
TTS 赛道正从“可听懂”走向“可角色化”。Qwen3-TTS 用开源+低价组合冲击 Azure、AWS 商用池,同时给直播、客服、教育三大场景提供“零样本”落地路径。伴随克隆音色与超采样版本发布,语音生成或将进入“人人都能配旁白”的新阶段。AIbase 将持续跟踪其克隆接口开放进度与商用案例。
项目地址:
https://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo
来源:
AIbase
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2025
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.106343 second(s), 7 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表