返回列表 发布新帖
查看: 13|回复: 0

[人工智能] 千问Qwen3-ASR语音识别模型开源

发表于 3 天前 | 查看全部 |阅读模式

这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!

您需要 登录 才可以下载或查看,没有账号?立即注册

×
1月30日消息,日前,千问宣布正式开源Qwen3-ASR系列模型。

据介绍,Qwen3-ASR是由Qwen开发的一系列功能强大的语音识别模型,包括两个强大且全面的语音识别模型Qwen3-ASR-1.7B与Qwen3-ASR-0.6B,以及一个创新的语音强制对齐模型Qwen3-ForcedAligner-0.6B。Qwen3-ASR系列的语音识别模型支持52个语种与方言的语种识别与语音识别。

依托创新的预训练AuT语音编码器与Qwen3-Omni基座模型的强大多模态能力,Qwen3-ASR实现了精准与稳定的语音识别,其1.7B模型在中文、英文、中文口音与歌唱识别等场景下达到SOTA,具有复杂文本识别能力以及强噪声下的稳定性。

另外,0.6B模型在性能与效率上实现了均衡,在保证语音识别准确率的情况下,128并发异步服务推理能够达到2000倍吞吐,即10秒钟处理五个小时以上的音频。

强制对齐模型Qwen3-ForcedAligner-0.6B是提出的基于NAR LLM推理的时间戳预测模型,支持11个语种的任意位置的灵活精准的强制对齐,其时间戳预测精度超越传统的WhisperX,Nemo-Forced-Aligner等模型,单并发推理RTF达到了高效的0.0089。

千问团队称,希望Qwen3-ASR系列模型的开源能够推动语音识别与理解的研究与发展,三个模型的结构与权重、以及一个全面易用的推理框架将一并开源。

B0138091-CADD-43b0-80D8-93451F015EC0.png

19DC4FBC-516E-47da-A3DE-FD28F6E3315C.png
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2026 Suike Tech All Rights Reserved. 随客交流社区 (备案号:津ICP备19010126号) |Processed in 0.110912 second(s), 7 queries , Gzip On, MemCached On.
关灯 在本版发帖返回顶部
快速回复 返回顶部 返回列表