阿里通义推出Fun-CosyVoice3.5和Fun-AudioGen-VD两款语言模型

as22 · 发表于 2026-3-3 15:45:15

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

您需要登录才可以下载或查看，没有账号？立即注册

×

本帖最后由 as22 于 2026-3-3 15:48 编辑

3月3日消息，日前，通义实验室语音团队正式发布两款支持 FreeStyle 指令生成的模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD。无论是精细控制声音表达，还是从零设计音色与场景，都可以通过自然语言指令直接生成。

两款模型均支持通过自然语言指令控制语音生成，但应用方向不同：Fun-CosyVoice3.5：多语种复刻 + 精细化表达控制。Fun-AudioGen-VD：声音设计 + 场景化音频生成。

据悉，CosyVoice3.5 在 Instruct-TTS 方向实现能力升级，支持 FreeStyle 指令控制生成效果，一句话自由生成语音。用户可以直接用自然语言描述表达方式，例如：“语气坚定一点”、“稍微压低音调，语速慢一点”、“带一点情绪起伏”......模型即可理解并生成相应表达。

还新增支持泰语、印尼语、葡萄牙语和越南语。针对生僻字、复杂语句等容易读错的场景专项优化，生僻字读错率从 15.2% 降至 5.3%，复杂文本表现更加稳定，长文本朗读也更稳定流畅。

同时，CosyVoice3.5通过强化学习技术专项调优，双重提升听感，使整体听感更加自然，表达更有层次。语言模型部分使用 DiffRO + GRPO，增加时长与韵律多通道 reward，韵律表现明显提升。Flow Matching（音频生成）使用 Flow-GRPO，复刻相似度和音质进一步提升。

另外，Tokenizer 帧率减半；首包延迟降低 35%。在实时交互场景下响应更快，体验更流畅。

而Fun-AudioGen-VD支持根据自然语言描述，生成目标音色、情绪表达和完整听觉场景，实现“人物 + 场景”的一体化声音生成。

支持通过指令精细化控制声音特征

基础属性：性别、年龄、口音、音高、语速

音质特征：沙哑、清亮、低沉、磁性......

情绪表达：愤怒、悲伤、兴奋、坚定......

角色模拟：客服、老兵、孩童、AI、播音员......

复杂心理：支持细腻状态表达（如“表面镇定但内心颤抖”）

Fun-AudioGen-VD 不仅能生成声音，还能生成声音所处的“世界”，打造沉浸式听觉场景。

背景环境音：叠加城市喧嚣、咖啡馆背景、战场轰鸣等环境音；

空间混响效果：模拟大教堂、金属牢房、水下等空间回声；

设备听感滤镜：还原老式广播、对讲机、呼吸面罩等特殊音质；

动态环境互动：支持风噪断续、回声变化、嘶哑效果等实时互动。

[人工智能] 阿里通义推出Fun-CosyVoice3.5和Fun-AudioGen-VD两款语言模型

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

快速入口

重要文档

关于我们

联系我们