DeepSeek开源第三日,开源DeepGEMM
本帖最后由 as22 于 2025-2-26 13:56 编辑今日,是DeepSeek“开源周”的第三天,其开源了DeepGEMM。
据介绍,DeepGEMM,一个支持密集和MoE(专家混合模型)GEMM(通用矩阵乘法)的FP8 (8位浮点数)GEMM库,为V3/R1训练和推理提供支持。
在HopperGPU上可实现高达1350+ FP8 TFLOPS性能,无复杂依赖,代码简洁如教程,完全采用即时编译技术(Just-In-Time),核心代码仅约300行 —— 在大多数矩阵尺寸下超越了专家优化的内核,支持稠密布局和两种 MoE 布局。
此前,DeepSeek开源了DeepEP,第一个用于MoE模型训练和推理的开源EP通信库。
页:
[1]