CUDA C++程序设计模型

本章介绍了CUDA编程模型背后的主要概念，概述了它们在C++中的暴露方式。在编程接口中给出了CUDA C++的广泛描述。

使用的矢量加法示例的完整代码可以在矢量加法CUDA示例中找到。

一. 内核

CUDA C++通过允许程序员定义C++函数，称为内核，扩展了C++，当调用时，用n个不同的CUDA线程并行执行n次，而不是像常规C++函数那样只执行一次。

一个内核使用了__global__声明说明符来定义，并且使用一个新的<<<…>执行配置语法（参见C++语言扩展）来指定执行给定内核调用的内核的CUDA线程的数量。执行内核的每个线程都有一个唯一的线程ID，可以通过内置变量在内核中访问。

下面的示例代码使用内置变量threadIdx，添加两个大小为N的向量A和B，并将结果存储到向量C中：

// Kernel definition __global__ void VecAdd(float* A, float* B, float* C)

{

int i = threadIdx.x;

C[i] = A[i] + B[i];

}

int main()

{

...

// Kernel invocation with N threads

VecAdd<<<1, N>>>(A, B,
C);

...

}

二．线程层次结构

为了方便起见，threadIdx是一个三分量向量，因此可以使用一维、二维或三维螺纹索引来识别螺纹，形成一维、二维或三维螺纹块，称为螺纹块。这提供了一种跨域元素（如向量、矩阵或卷积）调用计算的自然方法。

一个线程的索引和它的线程ID以一种简单的方式相互关联：对于一维模块，它们是相同的；对于二维模块（Dx，Dy），索引（x，y）线程的线程ID是（x+ydx）；对于三维模块（Dx，Dy，Dz），索引（x，y，z）线程的线程ID是（x+ydx+z Dx Dy）。

例如，下面的代码添加两个大小为NxN的矩阵A和B，并将结果存储到矩阵C中：

// Kernel definition __global__ void MatAdd(float
A[N][N], float
B[N][N], float
C[N][N])

{

int i = threadIdx.x;

int j = threadIdx.y;

C[i][j] = A[i][j] + B[i][j];

}

int main()

{

...

// Kernel invocation with one block of N * N * 1 threads

int
numBlocks = 1;

dim3
threadsPerBlock(N, N);

MatAdd<<<numBlocks,
threadsPerBlock>>>(A, B,
C);

...

}

每个块的线程数是有限制的，因为块的所有线程都应该位于同一个处理器核心上，并且必须共享该核心的有限内存资源。在当前GPU上，一个线程块最多可以包含1024个线程。但是，内核可以由多个形状相同的线程块执行，因此线程总数等于每个块的线程数乘以块的数量。

块被组织成一维、二维或三维的螺纹块网格，如图1所示。网格中线程块的数量通常由正在处理的数据的大小决定，该大小通常超过系统中处理器的数量。

图1. 螺纹块网格

语法中指定的每个块的线程数和每个网格的块数可以是int或dim3类型。二维块或网格可以在上面的示例中指定。

网格中的每个块都可以由一个一维、二维或三维唯一索引标识，该索引可通过内置的blockIdx变量在内核中访问。线程块的维度可以通过内置的blockDim变量在内核中访问。扩展前面的MatAdd（）示例以处理多个块，代码如下所示。
// Kernel definition __global__

void MatAdd(float
A[N][N], float
B[N][N], float
C[N][N])

{

int i = blockIdx.x * blockDim.x + threadIdx.x;

int j = blockIdx.y * blockDim.y + threadIdx.y;

if (i
< N && j < N) C[i][j] = A[i][j] + B[i][j];

}

int main()

{

...

// Kernel invocation

dim3
threadsPerBlock(16, 16);

dim3
numBlocks(N / threadsPerBlock.x, N / threadsPerBlock.y);

MatAdd<<<numBlocks,
threadsPerBlock>>>(A, B,
C);

...

}

16x16（256个线程）的线程块大小虽然在本例中是任意的，但却是常见的选择。网格是用足够的块创建的，每个矩阵元素有一个线程。为了简单起见，本例假设每个维度中每个网格的线程数可以被该维度中每个块的线程数均匀地整除，尽管事实并非如此。线程块需要独立执行：必须能够以任何顺序并行或串联执行它们。

这种独立性要求允许线程块在任意数量的内核上按任意顺序进行调度，使程序员能够编写随内核数量而扩展的代码。

块中的线程可以通过共享一些共享内存来协作，并通过同步它们的执行来协调内存访问。更准确地说，可以通过调用syncthreads（）内部函数来指定内核中的同步点；syncthreads（）充当一个屏障，块中的所有线程都必须在该屏障上等待，然后才能允许任何线程继续。共享内存给出了一个使用共享内存的示例。除了syncthreads（）之外，协作组API还提供了一组丰富的线程同步原语。

为了实现高效的协作，共享内存应该是靠近每个处理器核心的低延迟内存（很像一级缓存），而syncthreads（）应该是轻量级的。

三．内存层次结构

CUDA线程可以在执行期间从多个内存空间访问数据，如图2所示。每个线程都有专用的本地内存。每个线程块都有对该块的所有线程可见的共享内存，并且与该块具有相同的生存期。所有线程都可以访问相同的全局内存。

所有线程还可以访问另外两个只读内存空间：常量和纹理内存空间。全局、常量和纹理内存空间针对不同的内存使用进行了优化（请参阅设备内存访问）。对于某些特定的数据格式（请参见纹理和曲面内存），纹理内存还提供不同的寻址模式以及数据过滤。

全局、常量和纹理内存空间在同一个应用程序启动的内核之间是持久的。

图2. 内存层次结构

四．异构程序设计

如图3所示，CUDA编程模型假定CUDA线程在物理上独立的设备上执行，该设备作为运行C++程序的主机的协处理器。例如，当内核在GPU上执行，而C++程序的其余部分在CPU上执行时，情况就是这样。

CUDA编程模型还假设主机和设备都在DRAM中保持各自独立的内存空间，分别称为主机内存和设备内存。因此，程序通过调用CUDA运行时（在编程接口中描述）来管理内核可见的全局、常量和纹理内存空间。这包括设备内存分配和释放，以及主机和设备内存之间的数据传输。

统一内存提供托管内存以桥接主机和设备内存空间。托管内存可以从系统中的所有CPU和GPU访问，作为具有公共地址空间的单个相干内存映像。此功能支持设备内存的超额订阅，并且通过消除在主机和设备上显式镜像数据的需要，可以大大简化移植应用程序的任务。有关统一内存的介绍，请参见统一内存编程。

图3. 异构程序设计

注：串行代码在主机上执行，并行代码在设备上执行。

五．计算能力

设备的计算能力由版本号表示，有时也称为“SM版本”。此版本号标识GPU硬件支持的功能，并由应用程序在运行时用于确定当前GPU上可用的硬件功能和/或指令。计算能力包括主要修订号X和次要修订号Y，并用X.Y表示。

具有相同主要修订号的设备具有相同的核心体系结构。主要版本号为7（基于Volta架构的设备）、6（基于Pascal架构的设备）、5（基于Maxwell架构的设备）、3（基于Kepler架构的设备）、2（基于Fermi架构的设备）和1（基于Tesla架构的设备）。

次要修订号对应于核心架构的增量改进，可能包括新功能。

Turing是计算能力为7.5的设备的架构，是基于Volta架构的增量更新。

启用CUDA的GPU列出了所有启用CUDA的设备及其计算能力。计算能力给出了每个计算能力的技术规范。

注：特定GPU的计算能力版本不应与CUDA版本（如CUDA 7.5、CUDA 8、CUDA 9）混淆，后者是CUDA软件平台的版本。CUDA平台被应用程序开发人员用来创建运行在许多代GPU架构上的应用程序，包括尚未发明的未来GPU架构。虽然CUDA平台的新版本通常通过支持新GPU体系结构的计算能力版本来增加对新GPU体系结构的本机支持，但CUDA平台的新版本通常还包括独立于硬件生成的软件功能。

从CUDA 7.0和CUDA 9.0开始，Tesla和Fermi架构不再受支持。

相关阅读:
Linux系统自带服务罗列
几个有用的shell命令
Zabbix
RaspberryPi3安装CentOS7教程
grafana简介
负载均衡之Haproxy配置详解（及httpd配置）
CentOS7版本的新特性
文件系统目录结构
openstack部署dashboard
openstack核心组件--cinder存储服务（6）

原文地址：https://www.cnblogs.com/wujianming-110117/p/13044761.html