返回列表 发布新帖
查看: 36|回复: 0

[人工智能] 小米开源OmniVoice多语言语音克隆TTS

发表于 前天 15:49 | 查看全部 |阅读模式

这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!

您需要 登录 才可以下载或查看,没有账号?立即注册

×
5月8日,据“小米技术”公众号消息,小米AI实验室新一代Kaldi团队全新推出 OmniVoice,不仅在中英文场景达到顶尖性能,更在多语言任务中展现出超越商用系统的实力,是业内首个覆盖数百语种的语音克隆 TTS 模型。

2FC797A6-F0D1-4b96-BF02-FAD126AD80FE.png

据悉,OmniVoice最亮眼的突破,莫过于它极简的模型架构。它仅用一个双向 Transformer 网络,就能直接实现文本到语音的转化,省去了多余的结构和环节:没有文本的单独建模,没有复杂的混合结构,也没有多层级的 token 预测,是目前最简单的非自回归 TTS 模型。

OmniVoice 的语音合成质量优于目前同类主流模型,同时,训练和推理速度极具优势,一天完成10万小时训练,用 PyTorch 推理就可以达到40倍实时,轻松适配各类应用场景。

969F8000-F0F7-4dce-AE95-7BDE1CE3BECD.png

在这一实力背后,是两个关键的设计:一是通过全码本随机掩蔽策略,显著提升模型的训练效率,进而全面提升模型能力;二是引入大语言模型作为模型的预训练参数,首次在非自回归 TTS 模型中有效利用大语言模型,让语音合成的可懂度大幅提升,彻底解决了“读不准”的问题。

据介绍,OmniVoice依托开源社区的力量,收集了50个开源语音数据集,经过降噪、质量筛选等处理,最终构建了涵盖 646 种语种、总时长 58 万小时的多语言训练数据集。

在多语言测试中,OmniVoice 表现惊艳:即便仅基于开源数据训练,在24语种的测试中,其语音相似度和可懂度均超越多款商用系统;在102种语种的测试中,它的语音可懂度逼近甚至优于真实语音,充分展现了其强大的多语言泛化能力;即便对于训练数据不足10小时的小语种,OmniVoice 也能实现高质量的语音合成,大大降低了低资源语种的语音合成门槛。

AEE2ED3D-3F06-4895-A53B-C0FB187326A2.png

FBD34315-F589-4c5c-8856-38AE3CB92AA23.png


CC450307-87E8-46b7-8F97-A2EEF3BCE60D.png

OmniVoice还新增了多个实用功能,让语音合成更灵活、更贴合实际需求:

自定义音色设计:无需参考音频,只需描述音色属性(如性别、年龄、音调、方言、口音等),就能生成符合预期的音色,还支持耳语等特殊风格。

带噪参考音频适配:针对实际使用中参考音频音质不佳的问题,OmniVoice 能自动过滤噪声,提取清晰的音色特征,即便在嘈杂环境下录制的音频,也能克隆出高质量语音。

丰富语气表达:支持插入笑声、叹气等语气符号,让合成语音更有表现力,更贴近真人交流。

发音精准纠正:针对中英文多音字、专有名词易读错的问题,用户可通过简单设置,纠正发音错误,提升语音合成的可靠性。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2026 Suike Tech All Rights Reserved. 随客交流社区 (备案号:津ICP备19010126号) |Processed in 0.135373 second(s), 8 queries , Gzip On, MemCached On.
关灯 在本版发帖返回顶部
快速回复 返回顶部 返回列表