返回列表 发布新帖
查看: 6|回复: 0

[手机数码] 华为联合湖北移动完成AI推理加速现网测试:Token吞吐率大增372%

发表于 昨天 14:29 | 查看全部 |阅读模式

这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!

您需要 登录 才可以下载或查看,没有账号?立即注册

×
s_a9954851f47347dfa85437cac04ce36f.jpg

6月26日消息,据“华为数据存储”公众号消息,在2026 MWC上海展期间,华为与中国移动通信集团湖北有限公司(以下简称“湖北移动”)联合宣布,双方已成功完成全国运营商首个AI推理加速解决方案现网测试。

此次测试基于华为OceanStor A800存储与昇腾A3超节点架构,并搭载UCM(Unified Cache Manager,推理记忆数据管理)能力,在长序列AI推理场景下,实现Token吞吐率最高提升372%的突破性成果,为运营商智算业务的高效部署提供了重要技术支撑。

据介绍,本次测试在湖北移动现网环境中部署vLLM-Ascend框架,面向MiniMax M2.5、GLM-5.1等主流大模型,模拟了8K至190K长序列输入场景。

测试结果显示,在MiniMax M2.5模型场景下,启用UCM后,首Token延迟(TTFT)优化26%至62%,单NPU卡Token输出效率(TPS)也获得明显提升。

其中,在64K序列长度下,TPS提升58%;在128K序列长度下,TPS提升78%。

在GLM-5.1模型场景下,UCM带来的加速效果更加明显,TTFT优化幅度达到51%至93%,TPS提升56%至372%。

具体来看,在64K序列长度下,TPS提升313%;在128K序列环境下,TPS最高提升372%。

华为表示,测试结果表明,随着上下文长度不断增加,AI推理加速方案的优势将持续放大,有效解决了长序列推理中的KV Cache容量瓶颈。

对于运营商而言,这意味着在大模型推理、智能客服、内容生成、行业智能体等长序列AI业务场景中,现网智算资源有望获得更高利用效率,同时降低长上下文推理带来的性能压力。

来源:快科技

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2026 Suike Tech All Rights Reserved. 随客交流社区 (备案号:津ICP备19010126号) |Processed in 0.140214 second(s), 7 queries , Gzip On, MemCached On.
关灯 在本版发帖返回顶部
快速回复 返回顶部 返回列表