异构计算编程
异构计算系统通常由通用处理器和许多特定于域的处理器组成:通用处理器作为控制设备(称为主机),用于复杂的控制和调度;特定于域的处理器作为子设备(称为MLU),用于大规模并行计算和特定于域的计算任务。主机和MLU合作完成计算任务。对于异构计算系统,原始的同构并行编程模型不再适用。因此,异构并行编程模型在学术界和工业界受到越来越多的关注。本文简要介绍了MLU异构编程。
编译链接过程
异构编程包括Host和MLU。对于主机,主要包括设备获取,数据/参数准备,执行流创建,任务描述,内核启动,输出获取等。Entry函数是MLU上的程序项,可以调用MLU函数。MLU程序使用异构编程模型的C / C ++语言扩展。二进制文件由MLU的指定编译器编译。
MLU异构程序的编译和链接过程
MLU异构程序如图2所示。MLU异构程序。采用单独的编程方法,即主机程序和MLU程序位于不同的文件(即主机文件和内核文件)中。Host程序和MLU程序的异构并行程序需要由编译器进行编译。
主机程序是常见的C / C ++程序,用户可以使用任何C / C ++编译器,例如GCC,CLANG等。MLU程序是基于C / C ++语言的扩展,可以通过以下方式进行编译: Cambricon提供的指定编译器CNCC。主机链接器通过链接主机和MLU中的两个目标文件,Runtime库和其他文件来形成可执行程序。
平行模型
执行模型
启动执行任务时,MLU270根据taskDimX以1个单元的并行度发出并执行指令,即最小并行粒度为taskDimX = clusterDim * coreDim。对于MLU270,coreDim = 4,用户可以通过指定Union类型来控制并行最小粒度taskDimX。下表中显示了此限制。当用户指定联合类型时,如果指定的taskDimX不是clusterDim * coreDim的正整数倍,则CNRTRuntime将引发错误。
限制MLU的软件和硬件并行大小 |
MLU270并行执行模型
如图所示,主机上有三种不同的内核功能,这些功能被传输到MLU270设备以执行。