基础参数
硬件架构:CDNA
软件栈:ROCm,Radeon Open Compute Platform
互联端口:3条Infinity Fabric 2.0
Host端口:X16 PCIe Gen 4/3
形态:Full High Full Length Dual Slot
制程:7nm
制造商:TSMC
计算性能:
Computing Unit:120个;
CU中的stream processor的个数:64;
总的SP的个数是:120*64=7680个
基础频率:1200MHz
Boost频率:1502MHz
FP64Boost性能为:7680*1502MHz/10^6=11.5TFLOPS
创新点:Matrix Core,可以进行矩阵运算,MFMA运算,Matrix Fused Multify-Add
互联性能:
X16 PCIe Gen4运行在32GT/s可以提供双向64GB/s的CPU交互带宽
顶部支持3个IF2.0的Link,类似于Bridge形式实现互联;
猜测单个运行在2875MHz*X16lane*8倍频*2双向/8/1000=2.875*32=92GB/s
官方宣称的是3*92=276GB/s;
3个link可以实现4个卡相互之间1跳互联,可以预测HPC的计算节点可能搭配的是2个CPU加上8个GPU;
内存性能
内存频率:1200MHz
内存倍频:2DDR
内存类型:HBM
内存容量:32GB
内存芯片个数:4Chip
内存位宽:4*1024bit=4096bit
内存带宽:1200MHz*2*4096/1000/8=1228.8GB/s
参考文献: