返回列表 发布新帖
查看: 11|回复: 0

[互联网] 智谱面向部分企业客户开放GLM-5.1高速版

发表于 昨天 14:20 | 查看全部 |阅读模式

这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!

您需要 登录 才可以下载或查看,没有账号?立即注册

×
5月22日消息,智谱宣布面向部分企业客户提供GLM-5.1高速版API“GLM-5.1-highspeed”,模型输出速度达到400 tokens/s。

这意味着,一位写作者连续伏案数天才能写完的文字量,它在1分钟内便交付完毕;一名工程师埋头敲键盘3天才能完成的开发任务,它能在喝一杯咖啡的时间里完成。

GLM-5.1高速版首次在国产大模型中,将旗舰级能力与极致低延迟同时带入生产环境,无需再为响应速度牺牲模型质量。

640.gif

据介绍,GLM-5.1高速版API“GLM-5.1-highspeed”由智谱GLM团队与TileRT团队联合打造,在推理引擎、调度系统与底层基础设施三个层面进行了系统级优化:

推理引擎层:针对GLM-5.1的架构特点,重写了核心推理路径,有效提升了单卡吞吐能力;

调度系统层:通过动态批处理、请求合并和KV缓存调度优化,显著降低高并发场景下的尾延迟;

基础设施层:围绕推理集群部署、网络链路、负载均衡进行协同优化,确保400 TPS不是一个“峰值”数字,而是稳定可用的生产级能力。

GLM-5.1高速版适用于AI编程、实时交互、商业决策、实时语音等对响应延迟要求极高的场景,现已面向智谱MaaS平台部分企业客户开放服务。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2026 Suike Tech All Rights Reserved. 随客交流社区 (备案号:津ICP备19010126号) |Processed in 0.112244 second(s), 7 queries , Gzip On, MemCached On.
关灯 在本版发帖返回顶部
快速回复 返回顶部 返回列表