小米开源OmniVoice多语言语音克隆TTS

as22 · 发表于 2026-5-8 15:49:54

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

您需要登录才可以下载或查看，没有账号？立即注册

×

5月8日，据“小米技术”公众号消息，小米AI实验室新一代Kaldi团队全新推出 OmniVoice，不仅在中英文场景达到顶尖性能，更在多语言任务中展现出超越商用系统的实力，是业内首个覆盖数百语种的语音克隆 TTS 模型。

据悉，OmniVoice最亮眼的突破，莫过于它极简的模型架构。它仅用一个双向 Transformer 网络，就能直接实现文本到语音的转化，省去了多余的结构和环节：没有文本的单独建模，没有复杂的混合结构，也没有多层级的 token 预测，是目前最简单的非自回归 TTS 模型。

OmniVoice 的语音合成质量优于目前同类主流模型，同时，训练和推理速度极具优势，一天完成10万小时训练，用 PyTorch 推理就可以达到40倍实时，轻松适配各类应用场景。

在这一实力背后，是两个关键的设计：一是通过全码本随机掩蔽策略，显著提升模型的训练效率，进而全面提升模型能力；二是引入大语言模型作为模型的预训练参数，首次在非自回归 TTS 模型中有效利用大语言模型，让语音合成的可懂度大幅提升，彻底解决了“读不准”的问题。

据介绍，OmniVoice依托开源社区的力量，收集了50个开源语音数据集，经过降噪、质量筛选等处理，最终构建了涵盖 646 种语种、总时长 58 万小时的多语言训练数据集。

在多语言测试中，OmniVoice 表现惊艳：即便仅基于开源数据训练，在24语种的测试中，其语音相似度和可懂度均超越多款商用系统；在102种语种的测试中，它的语音可懂度逼近甚至优于真实语音，充分展现了其强大的多语言泛化能力；即便对于训练数据不足10小时的小语种，OmniVoice 也能实现高质量的语音合成，大大降低了低资源语种的语音合成门槛。

OmniVoice还新增了多个实用功能，让语音合成更灵活、更贴合实际需求：

自定义音色设计：无需参考音频，只需描述音色属性（如性别、年龄、音调、方言、口音等），就能生成符合预期的音色，还支持耳语等特殊风格。

带噪参考音频适配：针对实际使用中参考音频音质不佳的问题，OmniVoice 能自动过滤噪声，提取清晰的音色特征，即便在嘈杂环境下录制的音频，也能克隆出高质量语音。

丰富语气表达：支持插入笑声、叹气等语气符号，让合成语音更有表现力，更贴近真人交流。

发音精准纠正：针对中英文多音字、专有名词易读错的问题，用户可通过简单设置，纠正发音错误，提升语音合成的可靠性。

[人工智能] 小米开源OmniVoice多语言语音克隆TTS

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

快速入口

重要文档

关于我们

联系我们