华为正式开源UCM技术：最大提升22倍，AI推理性能跃升

as22 · 发表于 2025-11-5 17:18:45

您需要登录才可以下载或查看，没有账号？立即注册

×

本帖最后由 as22 于 2025-11-5 17:20 编辑

11月5日消息，近日，华为宣布针对AI推理加速的关键技术——UCM（Unified Cache Manager）推理记忆数据管理正式开源。

UCM以KV Cache多级缓存和推理记忆管理为中心，通过推理框架、算力、存储的三层协同，破解长序列推理效率低、成本高的难题，为企业提供更优的AI推理体验。

据介绍，UCM融合了多类型缓存加速算法工具，可分级管理在推理过程中产生的KV Cache记忆数据。

UCM具备四大关键能力：稀疏注意力、前缀缓存、预填充卸载、异构PD解耦。

它实现首Token时延最高降低90%，系统吞吐最大提升22倍，并达到10倍级上下文窗口扩展，显著提升了AI推理性能。

目前，UCM已在ModelEngine社区开放基础框架与工具链，开发者可通过社区获取UCM源代码与技术文档。

来源：快科技

[互联网] 华为正式开源UCM技术：最大提升22倍，AI推理性能跃升