AMD新一代Instinct MI100计算卡：台积电7nm工艺制造

昨日晚间，AMD正式发布了新一代Instinct MI100计算卡，首次采用针对HPC高性能计算、AI人工智能全新设计的CDNA架构，和游戏向的RDNA架构截然不同。

Instinct MI100计算卡采用台积电7nm工艺制造，集成120个计算单元、7680个流处理器，核心频率最高1502MHz，并专门加入了Matrix Core(矩阵核心)，用于加速HPC、AI运算。

它整合封装了32GB HBM2显存，位宽4096-bit，频率1.2GHz，带宽1228.8GB/s，支持ECC。

该卡支持PCIe 4.0 x16，具备三条Infinity Fabric互连总线，峰值带宽92GB/s，整卡热设计功耗300W，双8针辅助供电。

这块卡的特殊之处还在于顶部设置了桥接金手指，通过桥接器可以将四块卡绑定在一起，而搭配双路的AMD霄龙处理器，可以实现八卡并行。

类似之前的计算卡，甚至是R9 Fury X、Vega 64/56这样的游戏卡，Instinct MI110也是将GPU芯片、HBM芯片整合封装在了一起，不过如今的HBM2单颗容量已达8GB。

对比CDNA(上)、RDNA(下)架构图，可以发现二者整体框架有些相似之处，但各种单元模块和布局已经截然不同。

Infinity Fabric互连总线、显存控制器、PCIe 4.0控制器、多媒体引擎、着色器引擎、ACE异步计算引擎等等都还在(当然也不完全一样了)，而和图形渲染输出相关的都没了，比如图形指令处理器、几何处理器、光栅器、显示引擎、原语单元等等，同时增加了XGMI连接控制器用于多卡互连，一二级缓存也完全不同。

作为AMD GPU的最基本模块，计算单元(CU)也完全不同了，现在叫做增强型计算单元(XCU)，组成模块包括调度器、分支与信息单元、12.8KB ECC标量单元、512KB ECC标量寄存器、矢量寄存器、矢量ALU操作单元、矩阵数据操作单元、四个矢量/矩阵SIMD单元、64KB ECC本地数据共享单元、载入/存储单元、16KB ECC一级缓存等等。

显然，这一些都是为计算服务的，而用于图形的着色器、纹理相关单元自然都不见了，即便有些单元名字一样，规格和作用也不同了。

计算性能方面，FMA64/FP64双精度为11.5TFlops(每秒1.15亿亿次)，FMA32/FP32单精度为23.1TFlops(每秒2.31亿亿次)，FP32 Matrix单精度矩阵计算为46.1TFlops(每秒4.61亿亿次)，FP16 Matrix半精度矩阵计算为184.6TFlops(每秒18.46亿亿次)，Bfloat16浮点为92.3TFlops(每秒9.23亿亿次)。

这样的一块卡，已经相当于20年前的世界顶级超级计算机，而体积、功耗都不可同日而语。

对比NVIDIA安培架构的最新计算卡A100，AMD也给出了一些对比数据，FP32单精度性能领先18.5%，FP64双精度性能领先18.6%，AI与机器学习性能更是领先两倍多，而且功耗低了足足100W。

而对比上代产品MI50，新卡的FP64双精度、FP32单精度性能均提升74%，FP32矩阵性能提升接近2.5倍，AI负载性能更是几乎7倍的飞跃。

当然，除了纸面计算性能优秀，软件开发也必须跟上，尤其是这种计算性的产品。NVIDIA在这方面要强得多，生态更加稳固和丰富，AMD ROCm平台正在奋起直追中。

关键词： AMD