智谱x摩尔线程：加速模型算力生态闭环

as22 · 发表于昨天 15:40

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

您需要登录才可以下载或查看，没有账号？立即注册

×

2月13日消息，今日，据智谱微信公众号消息，2月12日，其正式发布了新一代基座大模型 GLM-5，在智能体和编程能力上实现了大幅跃升，在全球权威的 Artificial Analysis 榜单中，位居全球第四、开源第一。

GLM-5 发布后，API 调用量显著攀升，来自开发者与企业客户的适配与接入需求持续增长。智谱表示，很高兴能与国产 GPU 厂商摩尔线程合作，在 GLM-5 发布当天即实现与摩尔线程旗舰级 AI 训推一体全功能 GPU MTT S5000 的适配，使其成为首批实现 GLM-5 国产算力部署验证的硬件平台。

得益于摩尔线程软硬件栈的通用性与成熟度，本次适配充分验证了以下核心技术优势：

算子适配与融合优化：依托 MUSA 架构的高兼容性与TileLang原生算子的高覆盖率（超 80%），双方基于 SGLang 推理框架完成了 GLM-5 关键算子的原生适配。特别是在长序列推理场景中，深度利用 MTT S5000 硬件原生 FP8 计算单元进行加速，在确保模型代码生成与逻辑推理精度无损的同时，大幅降低显存占用，显著提升了端到端推理吞吐。

MoE 架构推理优化：针对 GLM-5 的 MoE 架构特性及长上下文需求，双方对专家路由与调度机制进行专项优化，结合 MTT S5000 对稀疏 Attention 的架构级支持，确保了稀疏计算在国产硬件上的高效执行。这一优化有效降低了首字延迟（TTFT），保证了模型在处理复杂代码库分析及长程 Agent 任务时的生成速度与流畅度。

多卡协同部署：依托 MTLink 互联技术及摩尔线程独创的ACE异步通信引擎，实现多卡间高带宽与物理级的“通信计算重叠”。该机制成功将复杂的通信任务从计算核心中卸载，有效回收了约 15% 被通信占用的算力，为大规模模型的分布式推理场景提供了极高的稳定性与算力利用率。

智谱与摩尔线程同为扎根北京海淀的人工智能科技企业。此次围绕 GLM-5 的高效协作，是国产大模型与国产算力深度融合的一次重要实践。

智谱称，未来将与摩尔线程在全链路联合优化、行业场景共同落地和生态标准协同建设这几个方面持续深化合作。

[人工智能] 智谱x摩尔线程：加速模型算力生态闭环

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

快速入口

重要文档

关于我们

联系我们