智谱上线并开源文本转语音模型GLM-TTS

as22 发表于 2025-12-11 15:45:05

12月11日消息，今日，智谱宣布上线并开源GLM‑TTS工业级语音合成系统。

据介绍，只需 3秒语音样本，GLM‑TTS即可学习说话人的音色和说话习惯。在通用朗读、情感配音、教育评测、电子书、有声客服等场景中，实现自然流畅、贴近真人的语音。

GLM‑TTS在架构上采用两阶段生成，并在训练中引入基于GRPO的强化学习方案，在公开评测的「字错误率」和「情感表达」上取得开源SOTA表现。

值得一提的是，GLM-TTS仅使用10w小时训练数据，远低于行业主流商用模型。同时，GLM-TTS也兼顾了训练成本和效果，预训练仅需要单机4天即可得到开源 SOTA“发音准确度”与超高“音色还原度”，精品音色 LORA 和强化学习也仅需要单机1天即可完成训练，远低于行业平均水平。

另外，GLM‑TTS还以更低的价格获得了行业领先的MOS分数（平均主观意见分）。

目前，GLM‑TTS已同步开放模型权重、推理代码和在线调用接口。

页: [1]

随客社区's Archiver

智谱上线并开源文本转语音模型GLM-TTS