AMD发布推理史上最强APU推理显卡，推理速度比英伟达H100快1.6倍，内存高达192GB

来源：AICG工具箱责编：网络时间：2025-05-05 22:09:14

当地时间12月6日，AI科技圈热闹非凡，这边谷歌搬出“蓄谋已久”的大杀器Gemini大模型，号称全面掀翻GPT-4;另一边，AI芯片大厂AMD也按耐不住，正式发布Instinct MI300X GPU，据称性能正面硬刚英伟达H100。

Instinct MI300X是AMD有史以来尺寸和晶体管密度最大的芯片——包含1530亿个晶体管，AI任务推理性能比H100快1.6倍，内存容量足足192GB，是H100的两倍以上(2.4x)。

消息称，微软、Meta、OpenAI和Oracle等一众公司已率先承诺将购买AMD的这款GPU来替代H100。推理性能比H100 HGX快1.6倍，最高支持2900亿参数的超级大模型。它的出现，无疑为业界提供了颇有竞争力的第二种选择。

AMD在6月就预告了这款芯片，今天是正式发布，公布参数等细节。据介绍，Instinct MI300X是AMD使用有史以来最先进的生产技术打造，是Chiplet设计方法的“代表之作”。

它的底层是4个6nm I/O芯片，上面融合了8个HBM3内存(12Hi堆栈)和8个5nm CDNA 3 GPU小芯片(3D堆栈)。其中3D堆叠GPU和I/O芯片通过“3.5D”封装技术进行连接。最终成品功耗750W，包含304个计算单元、5.3TB/s带宽，以及高达192GB的HBM3内存(相比之下，H100仅80GB)。

在实际的生成式AI平台应用中，MI300X被设计为8个一组，通过Infinity Fabri进行互联，各GPU之间的吞吐量为896 GB/s。

同时，这一组合的内存总量达到1.5TB HBM3(H100为640GB)，可提供高达10.4 Petaflops的计算性能(BF16/FP16)。与英伟达的H100 HGX平台(BF16/FP16)相比，内存总量增加2.4倍，计算能力提高1.3倍。与此同时，AMD还为MI300X配备了400GbE网络并支持多种网卡，比英伟达的选择更多。

下面是AMD分享的官方性能测试结果(理性参考)。

首先，对于HPC工作负载，MI300X的FP64和FP32向量矩阵理论峰值吞吐量是H100的2.4倍;对于AI工作负载，其TF32、FP16、BF16、FP8和INT8理论峰值吞吐量是H100的1.3倍。注意，这些预测都不包含稀疏性(尽管MI300X确实支持)。

其次，AI推理任务中，AMD以1760亿参数的Flash Attention 2为例，声称MI300X在吞吐量(tokens/s)方面比H100高出1.6倍，同时，在700亿参数的Llama 2上，聊天延迟更慢，比H100快1.4倍(基于2k序列长度/128token workload)。