寒武纪已完成DeepSeek-V4适配

as22 发表于 4 天前

本帖最后由 as22 于 2026-4-24 14:56 编辑

4月24日消息，寒武纪宣布已基于 vLLM 推理框架完成对深度求索公司最新开源模型285B DeepSeek-V4-flash 和1.6T DeepSeek-V4-pro的 Day 0 适配。

针对 DeepSeek-V4 的新结构，寒武纪通过自研高性能融合算子库 Torch-MLU-Ops，对 Compressor、mHC 等模块进行专项加速；利用 BangC 高性能编程语言，编写稀疏/压缩 Attention、GroupGemm 等热点算子的极致优化 Kernel，充分释放硬件底层性能。
在推理框架优化层面，寒武纪在 vLLM 中全面支持 TP/PP/SP/DP/EP 5D 混合并行、通信计算并行、低精度量化以及 PD 分离部署等优化技术，通过策略优化，在满足延时约束下达到最佳的词元吞吐能力，显著提升端到端推理效率。
硬件特性同样被深度挖掘：利用 MLU 访存与排序加速能力，有效加速稀疏 Attention、Indexer 等结构；高互联带宽与低通信延时，将 Prefill 和 Decode 两种不同工作负载场景下的通信占比降至最低，最大化分布式推理的利用率。
据悉，今日早些时候，DeepSeek正式推出全新系列模型DeepSeek-V4的预览版本，并同步开源。

页: [1]

随客社区's Archiver

寒武纪已完成DeepSeek-V4适配