阿里通义实验室推出语音识别大模型Fun-ASR1.5

as22 · 发表于 2026-4-20 14:54:48

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

您需要登录才可以下载或查看，没有账号？立即注册

×

本帖最后由 as22 于 2026-4-20 14:56 编辑

4月20日，阿里通义实验室公众号宣布，正式推出、Fun-ASR1.5，实现了方言工业级可用的语音识别大模型。

据介绍，它基于统一的大模型架构，单模型即可无缝覆盖30种语言、汉语七大方言体系及20+地方口音，古诗词吟诵也能精准转写。测试显示，典型方言场景字错误率（CER）相对下降56.2%。目前已有5种方言准确率突破90%，15种超过80%。

Fun-ASR1.5基于超数十万小时真实方言语音数据训练，涵盖日常对话、地方新闻、乡村政务等多场景。

其支持汉语传统七大方言体系（官话/吴/湘/赣/客/闽/粤），并深度适配20+地区口音官话，覆盖中原、西南、冀鲁、江淮、兰银、胶辽、东北、北京、港台等，包括河南、陕西、湖北、四川、重庆、云南、贵州、广东、广西、河北、天津、山东、安徽、南京、江苏、杭州、甘肃、宁夏等20多个地区。

测试显示，在典型方言音频上，Fun-ASR1.5相比上一版本平均字错误率（CER）相对下降56.2%。

同时，Fun-ASR1.5支持30种主流语言的精准识别，包括东亚与东南亚：中文、日语、韩语、越南语、泰语、印尼语、马来语、菲律宾语。南亚与中东：印地语、阿拉伯语。欧洲主流语言：英语、法语、德语、西班牙语、葡萄牙语、俄语、意大利语、荷兰语、瑞典语、丹麦语、芬兰语、挪威语、希腊语、波兰语、捷克语、匈牙利语、罗马尼亚、保加利亚语、克罗地亚语、斯洛伐克语等。

得益于统一的多语言训练框架，Fun-ASR1.5在混合语种对话、跨语言自由切换（Code-Switching）场景下表现尤为突出。该能力已广泛应用于跨国企业远程协作、多语种短视频内容生产、国际学术会议记录等场景，有效降低跨语言沟通成本。

另外，Fun-ASR1.5对中文古诗词识别进行了专项优化，这是对传统文化数字化的一次重要技术探索。通义实验室称构建了覆盖先秦、汉魏、唐宋、元明清至近代的古诗词语音-文本对齐语料库，包含《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音。

在内部评测集中，Fun-ASR1.5对古诗词的字符级准确率达到97%。该能力已在国学在线课程、有声诗词APP等场景应用，未来有望助力中小学语文教育与非遗文化传承。

模型还可以基于上下文语义自动插入逗号、句号、问号、感叹号等标点，使转写结果接近书面表达。例如输入语音：“今天天气怎么样啊我想出去走走但又怕下雨”，输出文本就是“今天天气怎么样啊？我想出去走走，但又怕下雨。”

还支持将口语中的非标准表达自动转换为规范格式：
数字：“三千五百六十二” → “3562”

日期：“二零二六年三月二十九号” → “2026年3月29日”

金额：“五万八千块” → “58000元”

电话：“幺三八零零幺三八零零零” → “13800138000”

目前，Fun-ASR1.5已在阿里云百炼平台正式上线，面向教育、传媒、金融、科技、文化等各行业客户提供API服务。

[人工智能] 阿里通义实验室推出语音识别大模型Fun-ASR1.5

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

快速入口

重要文档

关于我们

联系我们