DeepSeek开源DeepGEMM矩阵乘法加速库,最快加速2.7倍
myzbx 2025-03-24 18:33 22 浏览
DeepSeek 开源活动来到了第三天,新项目如约而至。
此次开源库名为 DeepGEMM,GitHub 地址在文末。
DeepSeek 表示,这是一个支持密集和混合专家(MoE,Mixture of Experts)通用矩阵乘法(GEMM,General Matrix Multiplication)的 FP8 GEMM 库,为 V3/R1 的训练和推理提供支持。
在 Hopper GPU 上最高可达 1350+FP8 TFLOPS。其他优点包括:
没有过多的依赖,像教程一样简洁
完全即时编译
核心逻辑约为 300 行,但在大多数矩阵大小上均优于专家调优的内核
支持密集布局和两种 MoE 布局
据 DeepSeek 介绍,DeepGEMM 是一个专门设计的、干净且高效的工具库,它的核心任务是进行一种叫做 GEMM 的数学运算,这是 AI 模型训练和运行中非常常见的一种计算。
DeepGEMM 的特别之处在于,它使用了一种叫做 FP8 的超高效、低精度计算方式,能让运算速度更快,同时占用更少的内存。这种方式在 DeepSeek-V3 中被提出,并且支持精细的缩放调整(fine-grained scaling),让计算更灵活。
除了普通的矩阵乘法,DeepGEMM 还能处理混合专家矩阵乘法。
目前,DeepGEMM 只支持英伟达 Hopper 架构的张量核心。张量核心是 GPU 里的一种特殊硬件,专门用来加速矩阵运算。不过,Hopper 的张量核心在做 FP8 计算时,会出现累加(accumulation,就是把结果一点点加起来的过程)不够精确的问题。
为了解决这个问题,DeepGEMM 采用了两级累加(two-level accumulation)的办法。它借助 CUDA 核心来做更精确的累加,确保结果不会因为硬件限制而出错。
DeepGEMM 借鉴了一些来自 CUTLASS 和 CuTe 的概念。这两个也是 NVIDIA 的高性能矩阵运算库。不过,DeepGEMM 没有完全依赖它们的复杂模板或数学系统。
相反,该库的设计非常简单,只有一个核心内核函数,包含大约 300 行代码。这使其成为学习 Hopper FP8 矩阵乘法和优化技术的、干净且易于访问的资源。
尽管 DeepGEMM 设计轻量,但它的性能足以媲美那些由专家精心调优的库,甚至在某些矩阵形状(matrix shapes,指矩阵的大小和结构)上表现得更好。
在性能方面,DeepSeek 在搭载 NVCC 12.8 的 H800 上测试了 DeepSeek-V3/R1 推理中可能使用的所有形状(包括预填充和解码,但没有张量并行性)。
从性能对比表格上可见,DeepGEMM 最高能加速 2.7 倍。
所有加速指标都是与 DeepSeek 基于 CUTLASS 3.6 的内部精心优化的实现进行比较计算的。
鉴于 DeepGEMM 在某些矩阵形状上的表现并不是很好,DeepSeek 也邀请各路大神帮助优化这个开源库。
在优化方面,DeepSeek 实现了一些 CUTLASS 设计之外的优化。这些也是 DeepGEMM 最具创新的地方。
首先是完全 JIT 设计,安装时无需编译。所有内核均使用轻量级 JIT 实现在运行时进行编译。这种方法的优点包括:
- GEMM 形状、块大小和管道阶段数被视为编译时常量
- 自动选择块大小、warpgroups 数量、最佳管道阶段和 TMA 集群大小
- 全面展开 MMA 管道,为编译器提供更多优化机会
其次是支持非对齐的块大小。在做矩阵乘法时,矩阵会被分成一个个小块(block)来计算。块的大小通常是固定的,比如 128×128(因为 128 是 2 的幂,计算机喜欢这种数字)。但有时候,矩阵的尺寸跟这些块大小不完全匹配,就会浪费计算资源。
举个例子:
假设矩阵的行数(M)是 256,列数(N)是 7168。如果用常见的块大小 BLOCK_M=128(行)和 BLOCK_N=128(列),那么行方向可以分成 256÷128=2 个块,列方向可以分成 7168÷128=56 个块。总共用到的 SM(GPU 的计算单元)是 2×56=112 个。
GPU 通常有更多 SM(比如 128 个),但这里只用了 112 个,剩下的就闲着了,没充分利用。
DeepGEMM 的办法是支持非对齐的块大小,也就是不一定非要是 2 的幂(比如 128),可以根据矩阵尺寸灵活调整。
还是上面的例子,如果把 BLOCK_N 改成 112(而不是 128,不是 2 的幂),行方向还是 256÷128=2 个块,列方向变成了 7168÷112=64 个块。总共用到的 SM 变成 2×64=128 个。
这下正好把 128 个 SM 全用上,没有浪费。
最后一点是,DeepSeek 通过观察和修改底层代码(SASS 汇编指令)实现了性能优化。
简单来说,DeepSeek 发现新版编译器(NVCC 12.3)里有些底层代码变了,性能变得更好。深入研究后,他们觉得这是因为线程调度(yield)的方式变了,能让 GPU 同时干更多工作。
于是,他们模仿这个变化,写了个脚本修改自己的代码(调整 FFMA 指令的某些位),让 MMA 指令(矩阵乘累加)和提升指令更高效地“重叠在一起执行”。
结果是 DeepGEMM 在某些场景下快了 10% 以上,特别适合那种需要灵活调整的 FP8 矩阵乘法。
最后,DeepSeek 致谢了 CUTLASS 项目,称其是 DeepGEMM 的灵感来源。
参考资料:
https://x.com/deepseek_ai/status/1894553164235640933
https://github.com/deepseek-ai/DeepGEMM
排版:刘雅坤
相关推荐
- 每日C语言-快速排序(c语言快速排序怎么排)
-
定义:快速排序是一种常见的排序算法,基于分治的思想。其基本思想是选择一个基准数,将待排序数组分为两个子数组,一个子数组中的所有数字都比基准数小,另一个子数组中的所有数字都比基准数大。然后对这两个子数组...
- 【每天学习一个EXCEL函数】SORT 函数(万能排序函数)
-
=SORT(数组[排序依据],[排序顺序],[按列])其中:排序顺序1是升序,-1是降序,不填时默认为1。按列FALSE为竖向排序,True为横向排序,不填时默认FALSE。第3和第4参数是可以...
- C语言排序方法——冒泡排序详解!你学会了吗?
-
冒泡排序法的基本思路为:每次将相邻的两个数比较,将小的调在前面。举个例子,如果有6个数:9,8,5,4,2,0。第一次先将最前面的两个数9和8对调。第二次将第2个数和第3个数对调(9和5)······...
- PHP排序算法:计数、选择、插入、归并、快速、冒泡、希尔、堆
-
1.冒泡排序算法//冒泡排序算法php//author:Hengda//$arr待排序数组//$modefalse正序,true倒序functionbubbleSort(&$arr,...
- 灵魂拷问:如何检查 Java 数组中是否包含某个值?
-
作者|沉默王二责编|Elle在逛programcreek的时候,我发现了一些专注细节但价值连城的主题。比如说:如何检查Java数组中是否包含某个值?像这类灵魂拷问的主题,非常值得深入地研...
- Java排序之冒泡排序(java冒泡排序选择排序)
-
今天来给大家介绍一下排序算法之冒泡排序jwt简介冒泡排序:(BubbleSort)是一种简单的交换排序。之所以叫做冒泡排序,因为我们可以把每个元素当成一个小气泡,根据气泡大小,一步一步移动到队伍的一...
- PHP 数组排序:使用心得、示例代码和问题解决笔记
-
PHP数组排序:使用心得、示例代码和问题解决笔记在PHP开发中,数组排序是一项常见的任务。它可以帮助我们对数组中的元素进行排序,以便更好地管理和处理数据。在本文中,我将分享一些关于PHP数组排序的使...
- 「PHP」常用四种排序算法以及性能对比
-
作为一名合格的PHPer怎么能不接触到算法这个高大上的东西了,今天就来针对初学者来说一说最基础的4种排序算法:冒泡排序、选择排序、插入排序、快速排序(分区排序)。冒牌排序核心思想:比较相邻两个元素的大...
- 在嵌入式用C实现一个数组随机排序
-
在某些应用场景中,可能需要将一个数组的元素重新随机排列,我们可以称之为洗牌算法。其原理并不复杂,就是需要遍历整个数组,如果数组有n个元素,每当遍历到第i个数组元素时(i为数组元素的索引),再从0...
- 查询函数Choose、Lookup、Hlookup、Vlookup应用技巧解读
-
Excel中的查找和引用函数主要用于查找工作表中的所需内容,还可以获得工作表中的单元格位置或表格大小等信息,如果将查找和引用函数配合其他的Excel函数使用,将会发挥更强大的功能。常用的查询表中的数...
- 等了它N年,SORT函终于来了,可以让Excel表格自动排序
-
今天我们来学习一个Excel中的新函数,SORT函数,它的作用是对某一个数据区域进行排序,之前是OFFICE365的专属函数,现在WPS也支持这个函数了,我觉得是时候跟大家讲解下它是的使用方法,这个函...
- js数组常用方法总结(js数组常用的方法及用法)
-
首先说明,本文没技术含量,都是js的知识,只是为以后查阅方便。另外我们开了一个免费的讲解web前端课程,有兴趣的朋友可以去看,详情地址:http://fe.qietu.com/forum.php1、创...
- Excel新公式,好用的SORT排序公式,1分钟学会!
-
最新版本的Excel,里面有一个SORT函数公式,是用来排序的,特别好用,1分钟学会1、Sort诞生背景在排序的时候,我们有一个痛点,举个例子,当我们统计数据时,会下表的任务完成率排序,降序排列其中的...
- [西门子PLC] SCL编程实例:1200/1500PLC不定长数组选择排序运用
-
前景介绍:01选择排序原理;选择排序算法首先从第1个位置开始对全部元素进行选择,选出全部元素中最小的给该位置,再对第2个位置进行选择,在剩余元素中选择最小的给该位置即可;以此类推,重复进行“最小元素”...
- 图解简单选择排序,超详细非常好理解
-
1.基本概念简单选择排序(SelectSort)真的是人如其名,一是它真的非常简单,二是它主要依靠选择和交换操作来进行排序。可以将简单选择排序实现为稳定的排序算法,也可以实现为不稳定的排序算法。我...
- 一周热门
- 最近发表
- 标签列表
-
- HTML 简介 (30)
- HTML 响应式设计 (31)
- HTML URL 编码 (32)
- HTML Web 服务器 (31)
- HTML 表单属性 (32)
- HTML 音频 (31)
- HTML5 支持 (33)
- HTML API (36)
- HTML 总结 (32)
- HTML 全局属性 (32)
- HTML 事件 (31)
- HTML 画布 (32)
- HTTP 方法 (30)
- 键盘快捷键 (30)
- CSS 语法 (35)
- CSS 选择器 (30)
- CSS 轮廓宽度 (31)
- CSS 谷歌字体 (33)
- CSS 链接 (31)
- CSS 定位 (31)
- CSS 图片库 (32)
- CSS 图像精灵 (31)
- SVG 文本 (32)
- 时钟启动 (33)
- HTML 游戏 (34)