• 寒武纪思元290芯片和MLU290-M5卡


    引言:

    寒武纪的首个训练芯片:思元290
    TSMC 7nm工艺,MLUv2架构;
    有64个MLU Core,内存使用HBM2的内存,互联方面支持MLU-Link的互联技术;
    使用思元290做卡是MLU290,本次发布的是MLU290-M5形态的,是Mazzine形态的卡;

    芯片计算性能:

    使用MLUv2架构;含有64个MLU Core;
    INT4的性能是1024TFLOPS
    INT8的性能是512TFLOPS
    INT16的性能是256TFLOPS
    支持vMLU的数量是4个;
    对标的话NVIDIA A100最大是7个MIG;

    芯片内存性能:

    32GB HBM2内存
    应该是4个Stack,总的内存的位宽是4096bit;
    内存的带宽是:1228GB/s
    那么MemFreq就是:大约是1200Mhz,因为1200MHz*2DDR*4096bit的位宽/8/1000=1228.8MHz;


    芯片互联性能:

    Host端,也就是GPU到CPU的是X16 PCIe Gen 4,双向带宽是64GB/s
    Device段,也就是GPU到GPU之间的互联,使用的是MLU-Link
    MLU-Link波特率是50Gbps,并且每个GPU有6个Port/Link,每个Port有8个Lane,合计48个Lane;
    总的带宽是:50Gbps*2Direction*6Link或者Port*8Lans/8=600GB/s;

    相对的NVLink 3.0,有12个Port/Link,每个Port有4个Lane,合计也是48个Lane;并且波特率也是50Gbps,
    因此MLU-Link的贷款和NVLink3.0的总体上是一致的;

    卡的其他参数

    TDP是350W;
    OAM Open Accelerator Module的形态,需要54V的供电;
    包含散热器的卡的总重量是1470g;

    卡的横向扩展

    4个MLU290-M5可以组成1个玄思10000的2U的节点/系统;
    黑色是节点内的Link互联,蓝色用于节点之间的互联;
    4个节点组成POD16
    8个节点组成POD32


    官网地址:http://www.cambricon.com/index.php?m=content&c=index&a=lists&catid=340



    万事走心 精益求美


  • 相关阅读:
    BZOJ1263: [SCOI2006]整数划分
    BZOJ2084: [Poi2010]Antisymmetry
    storage和memory
    快速理解区块链
    IPNS节点ID
    创建上传目录存储文件
    ipfs上传下载
    Solidity函数view,pure,constant的用法
    Truffle框架环境搭建
    以太坊常用钱包(测试币获取)
  • 原文地址:https://www.cnblogs.com/kongchung/p/14746622.html
Copyright © 2020-2023  润新知