返回列表 发布新帖
查看: 21|回复: 0

[人工智能] 阿里通义实验室推出语音识别大模型Fun-ASR1.5

发表于 昨天 14:54 | 查看全部 |阅读模式

这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!

您需要 登录 才可以下载或查看,没有账号?立即注册

×
本帖最后由 as22 于 2026-4-20 14:56 编辑

4月20日,阿里通义实验室公众号宣布,正式推出 、Fun-ASR1.5,实现了方言工业级可用的语音识别大模型。

据介绍,它基于统一的大模型架构,单模型即可无缝覆盖30种语言、汉语七大方言体系及20+地方口音,古诗词吟诵也能精准转写。测试显示,典型方言场景字错误率(CER)相对下降56.2%。目前已有5种方言准确率突破90%,15种超过80%。

Fun-ASR1.5基于超数十万小时真实方言语音数据训练,涵盖日常对话、地方新闻、乡村政务等多场景。

其支持汉语传统七大方言体系(官话/吴/湘/赣/客/闽/粤),并深度适配20+地区口音官话,覆盖中原、西南、冀鲁、江淮、兰银、胶辽、东北、北京、港台等,包括河南、陕西、湖北、四川、重庆、云南、贵州、广东、广西、河北、天津、山东、安徽、南京、江苏、杭州、甘肃、宁夏 等20多个地区。

测试显示,在典型方言音频上,Fun-ASR1.5相比上一版本平均字错误率(CER)相对下降56.2%。


E30EB775-C86E-4371-920D-EB653D27369D.png

同时,Fun-ASR1.5支持30种主流语言的精准识别,包括东亚与东南亚:中文、日语、韩语、越南语、泰语、印尼语、马来语、菲律宾语。南亚与中东:印地语、阿拉伯语。欧洲主流语言:英语、法语、德语、西班牙语、葡萄牙语、俄语、意大利语、荷兰语、瑞典语、丹麦语、芬兰语、挪威语、希腊语、波兰语、捷克语、匈牙利语、罗马尼亚、保加利亚语、克罗地亚语、斯洛伐克语等。


DBD2A789-D38D-4a71-8D21-F3C0ADEE68A0.png

得益于统一的多语言训练框架,Fun-ASR1.5在混合语种对话、跨语言自由切换(Code-Switching)场景下表现尤为突出。该能力已广泛应用于跨国企业远程协作、多语种短视频内容生产、国际学术会议记录等场景,有效降低跨语言沟通成本。


另外,Fun-ASR1.5对中文古诗词识别进行了专项优化,这是对传统文化数字化的一次重要技术探索。通义实验室称构建了覆盖先秦、汉魏、唐宋、元明清至近代的古诗词语音-文本对齐语料库,包含《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音。

在内部评测集中,Fun-ASR1.5对古诗词的字符级准确率达到97%。该能力已在国学在线课程、有声诗词APP等场景应用,未来有望助力中小学语文教育与非遗文化传承。

模型还可以基于上下文语义自动插入逗号、句号、问号、感叹号等标点,使转写结果接近书面表达。例如输入语音:“今天天气怎么样啊我想出去走走但又怕下雨”,输出文本就是“今天天气怎么样啊?我想出去走走,但又怕下雨。”

还支持将口语中的非标准表达自动转换为规范格式:
数字:“三千五百六十二” → “3562”

日期:“二零二六年三月二十九号” → “2026年3月29日”

金额:“五万八千块” → “58000元”

电话:“幺三八零零幺三八零零零” → “13800138000”

目前,Fun-ASR1.5已在阿里云百炼平台 正式上线,面向教育、传媒、金融、科技、文化等各行业客户提供API服务。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2026 Suike Tech All Rights Reserved. 随客交流社区 (备案号:津ICP备19010126号) |Processed in 0.111057 second(s), 8 queries , Gzip On, MemCached On.
关灯 在本版发帖返回顶部
快速回复 返回顶部 返回列表