引言:
寒武纪的首个训练芯片:思元290
TSMC 7nm工艺,MLUv2架构;
有64个MLU Core,内存使用HBM2的内存,互联方面支持MLU-Link的互联技术;
使用思元290做卡是MLU290,本次发布的是MLU290-M5形态的,是Mazzine形态的卡;
芯片计算性能:
使用MLUv2架构;含有64个MLU Core;
INT4的性能是1024TFLOPS
INT8的性能是512TFLOPS
INT16的性能是256TFLOPS
支持vMLU的数量是4个;
对标的话NVIDIA A100最大是7个MIG;
芯片内存性能:
32GB HBM2内存
应该是4个Stack,总的内存的位宽是4096bit;
内存的带宽是:1228GB/s
那么MemFreq就是:大约是1200Mhz,因为1200MHz*2DDR*4096bit的位宽/8/1000=1228.8MHz;
芯片互联性能:
Host端,也就是GPU到CPU的是X16 PCIe Gen 4,双向带宽是64GB/s
Device段,也就是GPU到GPU之间的互联,使用的是MLU-Link
MLU-Link波特率是50Gbps,并且每个GPU有6个Port/Link,每个Port有8个Lane,合计48个Lane;
总的带宽是:50Gbps*2Direction*6Link或者Port*8Lans/8=600GB/s;
相对的NVLink 3.0,有12个Port/Link,每个Port有4个Lane,合计也是48个Lane;并且波特率也是50Gbps,
因此MLU-Link的贷款和NVLink3.0的总体上是一致的;
卡的其他参数
TDP是350W;
OAM Open Accelerator Module的形态,需要54V的供电;
包含散热器的卡的总重量是1470g;
卡的横向扩展
4个MLU290-M5可以组成1个玄思10000的2U的节点/系统;
黑色是节点内的Link互联,蓝色用于节点之间的互联;
4个节点组成POD16
8个节点组成POD32
官网地址:http://www.cambricon.com/index.php?m=content&c=index&a=lists&catid=340