TensorFlow和pytorch中的pin_memory和non_blocking设置是做什么的，又是否有用？？？（续）

TensorFlow和pytorch中的pin_memory和non_blocking设置是做什么的，又是否有用？？？（续）
接上篇：

TensorFlow和pytorch中的pin_memory和non_blocking设置是做什么的，又是否有用？？？

参考：

How to Overlap Data Transfers in CUDA C/C++

如何实现nvidia显卡的cuda的多kernel并发执行？？？

=================================================

首先要说一下，CPU的运行原理大家基本都有一个大致的了解，对于计算机科班出身的人来说操作系统也是必修的主修课程，但是GPU的运行原理却很少有人知道，而且GPU这个东西本身有很多的技术都是不公开的，尤其是GPU做通用计算的基本上都是那几个公司在搞，尤其是对于软件工程师，哪怕是CUDA领域的软件工程师，对于GPU的很多内部运行原理也是不清除的，对于普通的CUDA用户来说基本可以说只需要了解CUDA runtime api和driver api这两个层面的接口即可，可以说CUDA的运行原理对于软件人员来说基本是透明的；但是GPU编程不同于CPU编程，编码人员还需要对GPU的运算单元和内存结构层次有个了解才行，不然SIMP（单指令多线程）的代码是搞不好的。

接上文，本篇主要是要说下深度学习框架中的non_blocking设置是做什么的，又是否有用？

对这个non_blocking要有所了解主要还是要知道两个概念，一个是pinned memory；一个是stream队列。关于pinned memory上篇post已经给了介绍，这里再概要的复述下：host向device传输数据时（64kb大小以上数据），需要CPU在内存中指定一块pinned memory，将需要传输的数据放入到这块pinned memory中，然后向GPU发送指令要其将这块pinned memory中的数据copy回GPU的显存中。（关于pinned memory的介绍见：TensorFlow和pytorch中的pin_memory和non_blocking设置是做什么的，又是否有用？？？）

下面说下stream队列。首先我们需要知道一点，那就是CPU中运行的代码和数据都是从硬盘上调入到内存中的，不同进程被CPU调度执行都是需要从内存中读取对应的运行代码和数据的，而GPU是不能从硬盘中读取运行代码和数据的，这也是为啥GPU端叫做device，CPU端叫做host的原因。可以说GPU中的运行代码和数据都是从host端内存导入的，GPU中每一步操作指令都是CPU端从host内存中发送给GPU的（个人认为发送给GPU的函数运行指令只需要发送一次，然后就可以保存到GPU端的显存空间中，维护一个CPU进程对应在GPU端的显存空间都是被其对应的context所维护的）。为了理解上更加简单，我们可以暂且认为GPU端需要运行的指令都是CPU端实时发送来的，GPU端将收到的运行指令存放在队列中，这样的队列就叫做stream队列。

CPU端向GPU发送运行指令时，如果没有特殊的指定，所有的运行执行都是被GPU存放到显存中该CPU进程所对应的context下的default stream队列中（为了理解方便，我们假设每个CPU进程调用CUDA时在GPU上都只开一个context），当然如果在CPU向GPU发送指令时明确的标明该指令需要存放在某个非default的stream队列中也是可以的。GPU具体运行时是需要从stream队列中取出具体的运行指令的，由于GPU是有着成百上千个运算核心的，因此GPU可以同时运行多个stream队列中的运行指令的，但是这里需要注意几点：

1. default stream队列独占整个context（也是独占整个GPU），也就是说non-default stream队列中个有指令在运行的时候default stream中的指令是不会执行的，而default stream中的指令执行时non-default stream中的指令是不能执行的，也就是说default stream中的指令会被其他non-default stream中的指令所阻塞，同样default stream中的指令也会堵塞其他non-default stream中的指令；

2. 如果CPU端发送给GPU的指令为kernel类别的话，CPU进程发送完指令即可继续执行不需要等待GPU端对该条指令的执行完，也就是说CPU端的执行和GPU端kernel的执行是可以并行的。

3. 如果CPU端发送给GPU端的指令为cudaMemcpy，如果待传输的数据是pageable memory，那么CPU端需要在host内存中临时申请pinned memory，把待传输的数据copy到这个pinned memory，然后发送指令给GPU，要GPU将这块pinned memory中的数据copy走，然后CPU端陷入阻塞状态，等待GPU端copy任务结束再唤醒，而GPU端收到这条copy指令后把该指令存入到default stream队列中，由于GPU端的指令执行是需要排队的，所以CPU需要一直等待GPU端执行该指令并完成设备间数据copy后才可以继续执行。

4. 如果CPU端发送给GPU端的指令为cudaMemcpyAsync，与cudaMemcpy指令相同的是如果待传输的数据是pageable memory，那么CPU端需>要在host内存中临时申请pinned memory，把待传输的数据copy到这个pinned memory，然后发送指令给GPU，要GPU将这块pinned memory中的数据copy走，但是与cudaMemcpy所不同的是CPU端发送给GPU端执行后CPU端不陷入阻塞状态继续向下执行；而且cudaMemcpyAsync指>令与cudaMemcpy指令不同的是这条指令可以被指定进入GPU端的哪个stream队列中，这样GPU端执行这条指令时就不会阻塞GPU端其他non-default stream队列中的指令执行了。

5. default stream队列的指令不能和其他non-default stream队列中的指令同时执行，多个non-default stream中的指令可以同时执行。

可以说，在深度学习框架中是否使用non_blocking的区别其本质就是在host与device间copy数据时CUDA执行是使用cudaMemcpy还是cudaMemcpyAsync的区别；如果non_blocking=True，所包装的CUDA执行的语句就是cudaMemcpyAsync，如果non_blocking=False，所包装的CUDA执行的语句就是cudaMemcpy。

===================================

How to Overlap Data Transfers in CUDA C/C++中的一些例子：
```
cudaMemcpy(d_a, a, numBytes, cudaMemcpyHostToDevice);
increment<<<1,N>>>(d_a)
cudaMemcpy(a, d_a, numBytes, cudaMemcpyDeviceToHost);
myCpuFunction(b)
```
第一条语句执行，CPU发送指令给GPU后会阻塞直到GPU端的操作结束；第二条语句执行，CPU发送给GPU命令后直接向下执行第三条语句；第三条语句执行，CPU发送指令给GPU后会阻塞直到GPU端的操作结束；第四条语句执行，CPU执行操作不和GPU有任何关系。

需要注意的是cudaMemcpy这个操作的执行，首先CPU端发送这条执行指令给GPU后会阻塞直到GPU端执行完这条指令；同时，GPU端排队到执行这条default stream中的语句是会阻塞其他stream 队列中的指令执行；也就是说GPU端执行这个语句时会把之前所有发送到GPU端的指令全部执行完，然后才会执行这条语句，而CPU端只有等到GPU上这条语句执行结束才可以继续向下执行，这就意味着cudaMemcpy这个指令的执行implicit（隐式）的将CPU端和GPU端进行了同步，可以说cudaMemcpy是非常简单粗暴的实现了CPU端和GPU端的同步操作。

从上面的代码中可以看到第二条语句和第一条语句有依赖关系，第三条语句与第二条语句有依赖关系，但是第四条语句和前三天语句均没有依赖关系；同时由于第二条语句的执行并不会阻塞CPU端的执行，而第三条语句的执行会阻塞CPU的执行，因此完全可以把第四条语句发到第三条语句前执行，这样就实现了CPU端和GPU端同时运行，提高效率，修改后的代码如下：
```
cudaMemcpy(d_a, a, numBytes, cudaMemcpyHostToDevice);
increment<<<1,N>>>(d_a)
myCpuFunction(b)
cudaMemcpy(a, d_a, numBytes, cudaMemcpyDeviceToHost);
```
上面代码中CPU发送increment指令给GPU后就可以执行myCpuFunction操作，这样CPU端执行myCpuFunction函数的同时GPU端也可以同时执行increment函数，这样就实现了CPU和GPU的并行，提高运行效率。

为了将CPU解放出来，进一步提高效率，可以使用cudaMemcpyAsync指令，这样CPU端也不需要等待GPU端对这条语句执行完就可以继续执行，而GPU端执行这条语句的同时其他stream队列中的操作也可以同时并行（需要注意的是在GPU的多个stream队列中同一时刻只能有一个cudaMemcpyAsync指令在执行，如果其他stream队列中也有cudaMemcpyAsync指令需要执行那么则需要等待这条cudaMemcpyAsync指令执行完才可以执行，单方向的cudaMemcpyAsync一个时刻只能有一个，但是双方向copy的可以同时运行cudaMemcpyAsync）。

使用cudaMemcpyAsync，上面代码可以写为：
```
cudaStream_t stream1;
cudaError_t result;
result = cudaStreamCreate(&stream1);
result = cudaMemcpyAsync(d_a, a, N, cudaMemcpyHostToDevice, stream1);
increment<<<1,N,0,stream1>>>(d_a);
result = cudaMemcpyAsync(a, d_a, N, cudaMemcpyDeviceToHost, stream1);
result = cudaStreamDestroy(stream1);

myCpuFunction(b)
```
上面代码中CPU端和GPU端可以实现并行，同时由于GPU端的所有指令都放在了相同的non-default stream队列中，因此保证了GPU端的操作顺序。

虽然使用cudaMemcpyAsync可以实现CPU和GPU的同时运行，但是如果CPU中之后的运行中需要使用GPU通过cudaMemcpyAsync拷贝回host内存中的数据，那么我们就无法知道此时的数据是否是GPU中执行完操作copy回来的，为此我们就需要手动使用同步操作，保证内存中的数据是GPU拷贝回的数据，为此我们可以保证CPU和GPU同步的操作有：

cudaDeviceSynchronize() 阻塞CPU直到之前发送到GPU的所有指令执行结束，该操作的同步功能与cudaMemcpy相同；

cudaStreamSynchronize(stream) 阻塞CPU直到之前发送到GPU上指定的stream队列中的所有指令执行结束，该操作不影响GPU上其他stream队列中的指令执行；

cudaEventSynchronize(event) event在record的时候是需要指定stream队列的，因此该语句执行时阻塞CPU直到之前发送到GPU上指>定的stream队列中的record event的指令执行结束；

相关的：

cudaStreamWaitEvent(event) 与上面三个阻塞host端CPU的不同，该语句阻塞的是某个stream队列，也就是说CPU执行该语句是将执行发送给某个stream队列，该stream队列执行这个执行后便会阻塞，直到这个GPU上的event事件被record，而这个event是其他stream队列中的，而且这个其他stream队列也可以是其他GPU上的stream队列。

====================================================
本博客是博主个人学习时的一些记录，不保证是为原创，个别文章加入了转载的源地址还有个别文章是汇总网上多份资料所成，在这之中也必有疏漏未加标注者，如有侵权请与博主联系。如果未特殊标注的则为原创，遵循 CC 4.0 BY-SA 版权协议。
相关阅读:
(原创)智能电能表SM1算法开发套件(主站接口) 基础资料篇
 ora12500 tns 监听程序无法启动专用服务器进程
 老微开放下载地址了,Microsoft Visual Studio 2010 旗舰版试用版
 如何实现一套鼠标键盘控制二台主机
 (原创)智能电能表SM1算法开发套件(主站接口) 开发篇
 Win8消费者预览版各语言版本下载地址
 50个必备的实用jQuery代码段 DWZ富客户端
 DWZ富客户端框架设计思路与学习建议 DWZ富客户端
 Mysql嵌套集合模型【省份城市示例】 DWZ富客户端
 DWZRIA v1.3 RC1 发布 DWZ富客户端
原文地址：https://www.cnblogs.com/devilmaycry812839668/p/16884556.html

TensorFlow和pytorch中的pin_memory和non_blocking设置是做什么的，又是否有用？？？（续）

如何实现nvidia显卡的cuda的多kernel并发执行？？？

How to Overlap Data Transfers in CUDA C/C++中的一些例子：