设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
阿里通义推出Fun-CosyVoice3.5和Fun-AudioGen-VD两款语 ...
返回列表
发布新帖
查看:
7
|
回复:
0
[人工智能]
阿里通义推出Fun-CosyVoice3.5和Fun-AudioGen-VD两款语言模型
as22
as22
当前离线
UID
12
星火
贡献
奖金
发表于
5 小时前
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
本帖最后由 as22 于 2026-3-3 15:48 编辑
3月3日消息,日前,通义实验室语音团队正式发布两款支持 FreeStyle 指令生成的模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD。无论是精细控制声音表达,还是从零设计音色与场景,都可以通过自然语言指令直接生成。
两款模型均支持通过自然语言指令控制语音生成,但应用方向不同:
Fun-CosyVoice3.5:多语种复刻 + 精细化表达控制。
Fun-AudioGen-VD:声音设计 + 场景化音频生成。
据悉,
CosyVoice3.5 在 Instruct-TTS 方向实现能力升级,支持 FreeStyle 指令控制生成效果,一句话自由生成语音。用户
可以直接用自然语言描述表达方式,例如:“语气坚定一点”、“稍微压低音调,语速慢一点”、“带一点情绪起伏”......模型即可理解并生成相应表达。
还新增支持泰语、印尼语、葡萄牙语和越南语。
针对生僻字、复杂语句等容易读错的场景专项优化,生僻字读错率从 15.2% 降至 5.3%,复杂文本表现更加稳定,
长文本朗读也更稳定流畅。
同时,
CosyVoice3.5
通过强化学习技术专项调优,双重提升听感,使整体听感更加自然,表达更有层次。语言模型部分使用 DiffRO + GRPO,增加时长与韵律多通道 reward,韵律表现明显提升。Flow Matching(音频生成)使用 Flow-GRPO,复刻相似度和音质进一步提升。
另外,Tokenizer 帧率减半;首包延迟降低 35%。在实时交互场景下响应更快,体验更流畅。
而Fun-AudioGen-VD支持根据自然语言描述,生成目标音色、情绪表达和完整听觉场景,实现“人物 + 场景”的一体化声音生成。
支持通过指令精细化控制声音特征
基础属性:性别、年龄、口音、音高、语速
音质特征:沙哑、清亮、低沉、磁性......
情绪表达:愤怒、悲伤、兴奋、坚定......
角色模拟:客服、老兵、孩童、AI、播音员......
复杂心理:支持细腻状态表达(如“表面镇定但内心颤抖”)
Fun-AudioGen-VD 不仅能生成声音,还能生成声音所处的“世界”,打造沉浸式听觉场景。
背景环境音:叠加城市喧嚣、咖啡馆背景、战场轰鸣等环境音;
空间混响效果:模拟大教堂、金属牢房、水下等空间回声;
设备听感滤镜:还原老式广播、对讲机、呼吸面罩等特殊音质;
动态环境互动:支持风噪断续、回声变化、嘶哑效果等实时互动。
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2026
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.116492 second(s), 8 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表