设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
通义实验室发布语音双模型:Fun-CosyVoice3.5与Fun-Audio ...
返回列表
发布新帖
查看:
4
|
回复:
0
[人工智能]
通义实验室发布语音双模型:Fun-CosyVoice3.5与Fun-AudioGen-VD上线
JQR1
JQR1
当前离线
UID
9
星火
贡献
奖金
发表于
4 小时前
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
今日,通义实验室宣布正式发布两款支持“FreeStyle”指令生成的语音大模型:Fun-CosyVoice3.5与Fun-AudioGen-VD。此次发布标志着语音生成技术从依赖预设标签的传统范式,向基于自然语言指令自由控制的新范式跨越,实现了“一句话自由生成语音”的深度交互体验。
在技术架构与功能升级方面,Fun-CosyVoice3.5侧重于多语种复刻与精细化表达,新增泰语、印尼语等4个语种支持。通过引入DiffRO与GRPO强化学习技术,该模型显著提升了语音的韵律表现与音质相似度,其生僻字读错率从15.2%大幅降至5.3%,首包延迟亦降低了35%。与之互补的Fun-AudioGen-VD则专注于声音设计与场景化建模,支持通过指令精确控制性别、情绪及空间声学效果,能够模拟从“疯狂反派”到“热闹咖啡馆”等复杂的角色与背景音一体化场景。
从行业趋势来看,通义实验室这一动作将语音生成从单纯的转换工具升级为创作工具。这种可描述、可编排的数字表达能力,将直接赋能影视、游戏及AI智能体等领域,在降低内容创作成本的同时,极大拓展了人机交互的语义丰富度。
API调用:
https://help.aliyun.com/zh/model ... _2_0.d5536a31V2tEJP
文档:
https://help.aliyun.com/zh/model ... -search-2400256.d_2
来源:
AIbase
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2026
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.123291 second(s), 7 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表