来源:AICG工具箱 责编:网络 时间:2025-07-17 10:44:01
刚刚,DeepSeek开源周第三弹发布——DeepGEMM,一个支持密集和MoE GEMM的FP8 GEMM库,为V3/R1训练和推理提供动力。
⚡ Hopper GPU上性能高达1350+ FP8 TFLOPS✅ 没有过多的依赖,像教程一样干净✅ 完全JIT即时编译(安装不用预编译)✅ 极简设计:核心逻辑约为300行– 在大多数矩阵大小上都优于专家调整的kernels✅ 支持密集(Dense)布局和两种MoE布局GitHub:
眼尖的网友已经在项目贡献者名单中捕捉到了一个“Liang”,并在DeepSeek推文评论区发问:“是梁文锋(DeepSeek创始人)吗?”
DeepGEMM是一个专为干净、高效的FP8通用矩阵乘法(GEMM)而设计的库,具有细粒度扩展功能,如DeepSeek-V3中所述。它支持普通和混合专家(MoE)分组GEMM。该库用CUDA编写,在安装过程中无需编译,而是使用轻量级即时(JIT)模块在运行时编译所有kernel。
根据DeepSeek晒出的数据,普通GEMM(密集模型)中矩阵运算可提速多达2.7倍,分组GEMM(MoE模型)中连续性布局、掩码布局下可提速多达1.2倍。
目前,DeepGEMM仅支持英伟达Hopper Tensor Core。为了解决不精确的FP8 Tensor Core累积问题,它采用了CUDA核心两级累积(提升)。
虽然它利用了CUTLASS和CuTe的一些概念,但它避免了对其模板或代数的过度依赖。相反,该库的设计非常简单,只有一个核心kernel函数,包含大约300行代码。这使其成为学习Hopper FP8矩阵乘法和优化技术的干净且易于访问的资源。
尽管DeepGEMM设计轻量,但其性能却与各种矩阵形状的专家调整库相当或超过后者。
DeepSeek在搭载NVCC 12.8的H800上测试了DeepSeek-V3/R1推理中可能使用的所有形状(包括预填充和解码,但没有张量并行性)。所有加速指标都是与其基于CUTLASS 3.6的内部精心优化的实现进行比较计算的。
DeepGEMM在有些形状上的表现并不是很好,因此DeepSeek欢迎开发者来优化PR。在普通GEMM(密集模型)中,矩阵运算最高提速达到2.7倍。
在分组GEMM(MoE模型)中,连续性布局、掩码布局下速度可提升1.1倍~1.2倍。
DeepGEMM一发布,DeepSeek的推文评论区好评如潮。有人为英伟达股票发愁:
有人热情夸赞新代码库和DeepSeek工程师:
DeepSeek分享了清晰的上手指南,需要Hopper架构GPU、必须支持sm_90a,要求是Python 3.8、CUDA 12.3、PyTorch 2.1、CUTLASS 3.6或更新版本。DeepSeek强烈推荐CUDA 12.8或更高的版本以获得最佳性能。
开发:
安装:
将deep_gemm导入Python项目,就可以开始享用了。
这个代码库仅包含GEMM kernel。它要求LHS扩展因子进行TMA对齐和转置,并且仅支持NT格式(非转置LHS和转置RHS)。对于转置或其他FP8转换操作,需单独实现或将它们融合到先前的kernel中。虽然该库提供了一些简单的PyTorch实用函数,但这些函数可能会导致性能下降。DeepSeek的主要重点是优化GEMM kernels本身。
除了kernel外,该代码库还提供了一些实用函数和环境变量。
DeepSeek用
在2025年的今天,全国高考报名人数已经突破了1335万大关,创下了历史新高。面对如此庞大的竞争群体,以及不断深化的高考改革趋势,考生和家长们正面临着前所未有的挑战。特别是随着全国已有29个省份完成了
就在刚刚,马斯克又整大活了!他带着脑机接口Neuralink团队,开了1小时发布会,整个过程亮点满满,全程高能。首先,Neuralink宣布,目前全球已经有七人植入了设备。通过「心灵感应」产品,他们重获跟物理世
近日,GoogleDeepMind正式发布首个可完全在机器人本地部署的视觉-语言-动作模型(Visual-Language-Action,VLA)——GeminiRoboticsOn-Device。这也意味着,具身智能(EmbodiedAI)正在从依赖云端算力,迈入
AI时代,赚钱到底有多快?看看这个以色列老哥你就懂了。昨天,一笔看似“不起眼”的收购在硅谷刷屏:Wix用8000万美元,收下了本土AI编程公司Base44。在动辄上亿的一级市场,这个收购价格不算高。但背后的故事
创新不设限!2024新“智”慧全国AI数字创意大赛吸引百余组选手参赛
「AI教父」辛顿获得2024年诺贝尔物理学奖丨字节豆包将于10月10日发布首款智能硬件丨小鹏P7新车将搭载大模型
抖音开启AI搜索功能灰度测试丨OpenAI CEO奥特曼:2024年无法实现AGI丨夸克APP上线“健康大模型”
比尔·盖茨第18次访华发表重要讲话 | AI正在疯狂污染中文互联网 | 微软与奔驰公司合作将ChatGPT接入车机
一周盘点丨微软 NewBing 升级 | ChatGPT大升级 | Adobe AI增加firefly智能调色功能
图灵奖获得者、Meta首席AI科学家杨立昆:当下的AI智商不如狗,不应将其视作对人类的威胁
Midjourney角色一致性命令 "cref "测评丨如何保持多个角色一致性
OpenAI反水队友放大招!Claude 3重磅发布:实测可基本平替GPT-4应用需求,AI直言点破中美AI技术差距
Sora技术报告逐字解读,遥遥领先?实测效果指数爆炸!
Win11迎接史诗级更新,为你的电脑植入AI大脑,微软终于硬了!