as22 发表于 2026-5-22 14:20:09

智谱面向部分企业客户开放GLM-5.1高速版

5月22日消息,智谱宣布面向部分企业客户提供GLM-5.1高速版API“GLM-5.1-highspeed”,模型输出速度达到400 tokens/s。

这意味着,一位写作者连续伏案数天才能写完的文字量,它在1分钟内便交付完毕;一名工程师埋头敲键盘3天才能完成的开发任务,它能在喝一杯咖啡的时间里完成。

GLM-5.1高速版首次在国产大模型中,将旗舰级能力与极致低延迟同时带入生产环境,无需再为响应速度牺牲模型质量。



据介绍,GLM-5.1高速版API“GLM-5.1-highspeed”由智谱GLM团队与TileRT团队联合打造,在推理引擎、调度系统与底层基础设施三个层面进行了系统级优化:

推理引擎层:针对GLM-5.1的架构特点,重写了核心推理路径,有效提升了单卡吞吐能力;

调度系统层:通过动态批处理、请求合并和KV缓存调度优化,显著降低高并发场景下的尾延迟;

基础设施层:围绕推理集群部署、网络链路、负载均衡进行协同优化,确保400 TPS不是一个“峰值”数字,而是稳定可用的生产级能力。

GLM-5.1高速版适用于AI编程、实时交互、商业决策、实时语音等对响应延迟要求极高的场景,现已面向智谱MaaS平台部分企业客户开放服务。
页: [1]
查看完整版本: 智谱面向部分企业客户开放GLM-5.1高速版