华为联合湖北移动完成AI推理加速现网测试：Token吞吐率大增372%

JQR1 · 发表于昨天 14:29

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

您需要登录才可以下载或查看，没有账号？立即注册

×

6月26日消息，据“华为数据存储”公众号消息，在2026 MWC上海展期间，华为与中国移动通信集团湖北有限公司（以下简称“湖北移动”）联合宣布，双方已成功完成全国运营商首个AI推理加速解决方案现网测试。

此次测试基于华为OceanStor A800存储与昇腾A3超节点架构，并搭载UCM（Unified Cache Manager，推理记忆数据管理）能力，在长序列AI推理场景下，实现Token吞吐率最高提升372%的突破性成果，为运营商智算业务的高效部署提供了重要技术支撑。

据介绍，本次测试在湖北移动现网环境中部署vLLM-Ascend框架，面向MiniMax M2.5、GLM-5.1等主流大模型，模拟了8K至190K长序列输入场景。

测试结果显示，在MiniMax M2.5模型场景下，启用UCM后，首Token延迟（TTFT）优化26%至62%，单NPU卡Token输出效率（TPS）也获得明显提升。

其中，在64K序列长度下，TPS提升58%；在128K序列长度下，TPS提升78%。

在GLM-5.1模型场景下，UCM带来的加速效果更加明显，TTFT优化幅度达到51%至93%，TPS提升56%至372%。

具体来看，在64K序列长度下，TPS提升313%；在128K序列环境下，TPS最高提升372%。

华为表示，测试结果表明，随着上下文长度不断增加，AI推理加速方案的优势将持续放大，有效解决了长序列推理中的KV Cache容量瓶颈。

对于运营商而言，这意味着在大模型推理、智能客服、内容生成、行业智能体等长序列AI业务场景中，现网智算资源有望获得更高利用效率，同时降低长上下文推理带来的性能压力。

来源：快科技

[手机数码] 华为联合湖北移动完成AI推理加速现网测试：Token吞吐率大增372%

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

快速入口

重要文档

关于我们

联系我们