返回列表 发布新帖
查看: 16|回复: 0

[人工智能] 寒武纪已完成DeepSeek-V4适配

发表于 3 小时前 | 查看全部 |阅读模式

这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!

您需要 登录 才可以下载或查看,没有账号?立即注册

×
本帖最后由 as22 于 2026-4-24 14:56 编辑

4月24日消息,寒武纪宣布已基于 vLLM 推理框架完成对深度求索公司最新开源模型285B DeepSeek-V4-flash 和1.6T DeepSeek-V4-pro的 Day 0 适配。

B54C4137-90F2-458a-A838-BC7F4A51DC3B.png
针对 DeepSeek-V4 的新结构,寒武纪通过自研高性能融合算子库 Torch-MLU-Ops,对 CompressormHC 等模块进行专项加速;利用 BangC 高性能编程语言,编写稀疏/压缩 AttentionGroupGemm 等热点算子的极致优化 Kernel,充分释放硬件底层性能。

在推理框架优化层面,寒武纪在 vLLM 中全面支持 TP/PP/SP/DP/EP 5D 混合并行、通信计算并行、低精度量化以及 PD 分离部署等优化技术,通过策略优化,在满足延时约束下达到最佳的词元吞吐能力,显著提升端到端推理效率。

硬件特性同样被深度挖掘:利用 MLU 访存与排序加速能力,有效加速稀疏 AttentionIndexer 等结构;高互联带宽与低通信延时,将 Prefill Decode 两种不同工作负载场景下的通信占比降至最低,最大化分布式推理的利用率。

据悉,今日早些时候,DeepSeek正式推出全新系列模型DeepSeek-V4的预览版本,并同步开源。


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2026 Suike Tech All Rights Reserved. 随客交流社区 (备案号:津ICP备19010126号) |Processed in 0.125649 second(s), 7 queries , Gzip On, MemCached On.
关灯 在本版发帖返回顶部
快速回复 返回顶部 返回列表