来源:AICG工具箱 责编:网络 时间:2025-05-05 22:09:14
当地时间12月6日,AI科技圈热闹非凡,这边谷歌搬出“蓄谋已久”的大杀器Gemini大模型,号称全面掀翻GPT-4;另一边,AI芯片大厂AMD也按耐不住,正式发布Instinct MI300X GPU,据称性能正面硬刚英伟达H100。
Instinct MI300X是AMD有史以来尺寸和晶体管密度最大的芯片——包含1530亿个晶体管,AI任务推理性能比H100快1.6倍,内存容量足足192GB,是H100的两倍以上(2.4x)。
消息称,微软、Meta、OpenAI和Oracle等一众公司已率先承诺将购买AMD的这款GPU来替代H100。推理性能比H100 HGX快1.6倍,最高支持2900亿参数的超级大模型。它的出现,无疑为业界提供了颇有竞争力的第二种选择。
AMD在6月就预告了这款芯片,今天是正式发布,公布参数等细节。据介绍,Instinct MI300X是AMD使用有史以来最先进的生产技术打造,是Chiplet设计方法的“代表之作”。
它的底层是4个6nm I/O芯片,上面融合了8个HBM3内存(12Hi堆栈)和8个5nm CDNA 3 GPU小芯片(3D堆栈)。其中3D堆叠GPU和I/O芯片通过“3.5D”封装技术进行连接。最终成品功耗750W,包含304个计算单元、5.3TB/s带宽,以及高达192GB的HBM3内存(相比之下,H100仅80GB)。
在实际的生成式AI平台应用中,MI300X被设计为8个一组 ,通过Infinity Fabri进行互联,各GPU之间的吞吐量为896 GB/s。
同时,这一组合的内存总量达到1.5TB HBM3(H100为640GB),可提供高达10.4 Petaflops的计算性能(BF16/FP16)。与英伟达的H100 HGX平台(BF16/FP16)相比,内存总量增加2.4倍,计算能力提高1.3倍。与此同时,AMD还为MI300X配备了400GbE网络并支持多种网卡,比英伟达的选择更多。
下面是AMD分享的官方性能测试结果(理性参考)。
首先,对于HPC工作负载,MI300X的FP64和FP32向量矩阵理论峰值吞吐量是H100的2.4倍;对于AI工作负载,其TF32、FP16、BF16、FP8和INT8理论峰值吞吐量是H100的1.3倍。注意,这些预测都不包含稀疏性(尽管MI300X确实支持)。
其次,AI推理任务中,AMD以1760亿参数的Flash Attention 2为例,声称MI300X在吞吐量(tokens/s)方面比H100高出1.6倍,同时,在700亿参数的Llama 2上,聊天延迟更慢,比H100快1.4倍(基于2k序列长度/128token workload)。
不得不说,MI300X的大内存容量和带宽确给它带来了这一不小的优势。相比之下,在训练任务上,MI300X在300亿参数的MPT上的性能倒是与H100 HGX大致相同。
所以总的来看,MI300X的优势更在于推理。
此外,还需要强调的是,MI300X由于内存容量实在更大,因此可以容纳比H100多两倍的300亿参数训练模型、700亿参数的推理模型。以及MI300X最多可支持700亿训练和2900亿参数的推理模型,这都比H100 HGX多一倍。
最后,大伙最关心的价格——苏妈没说,但表示“肯定、必须低于英伟达的同量级产品”。
目前,AMD已经向HPE、戴尔、联想、SuperMicro等原始设备制造商发货,正式发售时间定于2024年第一季度。
说到2024年,AI加速芯片市场将无比热闹:除了AMD的MI300X,英特尔也将升级其Gaudi架构GPU,以及英伟达H200也要在2024年Q2问世。根据之前的爆料,H200在内存容量和带宽方面大概率会更上一层楼,计算性能则预计将和MI300X差不多。
最后,苏妈在发布会上也预测,2027年AI芯片总市场将达到4000亿美元。而她认为,AMD有信心从中分走一块还不错的蛋糕。
本场发布会上,和Instinct MI300X一共亮相的还有Instinct MI300A,这是全球首款数据中心APU也来了。前者专供生成式AI领域,后者则主要用于HPC计算。
据悉,MI300A是全球首个数据中心APU,CPU和GPU结合在同一个封装之中,对标的是英伟达Grace Hopper Superchips ,后者CPU和GPU位于独立的封装中,再串联到一起。
具体而言,MI300A采用和MI300X相同的基本设计和方法,但包含3个5nm核心计算芯片(CCD),每个配备8个Zen 4 CPU,所以一共24线程CPU核心,外加228个CDNA 3计算单元。
内存容量上,相比MI300X中的8个12Hi堆栈,它改为8个8Hi堆栈,从而将容量从192GB缩减至128G,内存带宽仍为5.3TB/s。这样的结果仍然是英伟达Nvidia H100 SXM GPU提供的1.6倍。
据悉,MI300A已开始用于美国劳伦斯利弗莫尔实验室,基于该芯片,该实验室的El Capitan有望成为世界首台2 Exaflop级别的超级计算机。
商汤科技最新升级的AI文生图领域的预训练模型——秒画Artist v0 3 5版本,三个月后迭代。审美水平和专业度上达到顶尖水平,福利值(免费)直接拉满
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
Stable Diffusion 是一种基于扩散过程的图像生成模型,可以生成高质量、高分辨率的图像。它通过模拟扩散过程,将噪声图像逐渐转化为目标图像。这种模型具有较强的稳定性和可控性,可以生成具有多样化效果和良好视觉效果的图像
免费版的 ChatGPT 足以完成大多数任务,但如果想要更快的响应、更多的细节和访问最新的功能,应该考虑获取 ChatGPT Plus。现在Plus版本已经可以连接互联网,获取最新的消息,以及各种各样的小插件,非常好用!
ChatGPT Plus会员怎么付费_如何升级ChatGPT Plus会员
商汤全新AI绘图大模型“秒画Artist”v0.3.5版本上手测评:作画水平比肩Midjourney!划重点——免费
stable diffusion controlnet_stable diffusion模型哪个好
2024诺贝尔化学奖授予谷歌DeepMind CEO丨联发科发布天玑9400旗舰AI芯片丨Sora负责人被谷歌挖墙脚
ChatGPT计划在年底将订阅费涨到22美元/月丨Llama 3.2发布:手机端侧可运行丨百度世界大会将于11月12日举行
字节跳动发布两款豆包系列视频模型丨ChatGPT「高级语音模式」功能全量上线丨「Apple智能」对存储空间要求进一步提高
快手发布文生视频大模型「可灵」丨广东高考首次启用AI智能巡考丨支付宝推出AI毛发自测工具
字节跳动试水AI硬件研发:重整人马聚焦教育赛道与智能可穿戴终端,两条产品线同时推进
10年缘分说散就散:Ilya Sutskever官宣从OpenAI离职,麾下的“超级对齐团队”负责人也一并离职
4000亿开源大模型「天工3.0」正式上线丨国内首个音乐模型「天工SkyMusic」上线丨波士顿动力发布电动人形机器人