智谱面向部分企业客户开放GLM-5.1高速版

as22 发表于 2026-5-22 14:20:09

5月22日消息，智谱宣布面向部分企业客户提供GLM-5.1高速版API“GLM-5.1-highspeed”，模型输出速度达到400 tokens/s。

这意味着，一位写作者连续伏案数天才能写完的文字量，它在1分钟内便交付完毕；一名工程师埋头敲键盘3天才能完成的开发任务，它能在喝一杯咖啡的时间里完成。

GLM-5.1高速版首次在国产大模型中，将旗舰级能力与极致低延迟同时带入生产环境，无需再为响应速度牺牲模型质量。

据介绍，GLM-5.1高速版API“GLM-5.1-highspeed”由智谱GLM团队与TileRT团队联合打造，在推理引擎、调度系统与底层基础设施三个层面进行了系统级优化：

推理引擎层：针对GLM-5.1的架构特点，重写了核心推理路径，有效提升了单卡吞吐能力；

调度系统层：通过动态批处理、请求合并和KV缓存调度优化，显著降低高并发场景下的尾延迟；

基础设施层：围绕推理集群部署、网络链路、负载均衡进行协同优化，确保400 TPS不是一个“峰值”数字，而是稳定可用的生产级能力。

GLM-5.1高速版适用于AI编程、实时交互、商业决策、实时语音等对响应延迟要求极高的场景，现已面向智谱MaaS平台部分企业客户开放服务。

页: [1]

随客社区's Archiver

智谱面向部分企业客户开放GLM-5.1高速版