Hello C++ AMP!

导读:C++ AMP是微软提供的一套利用GPU并行计算的API. GPU运算不是新概念,用GPU运算比较有名的已有NVIDIA的CUDA,AMD的stream. 同时对于OpenCL这个标准大家也一定没见过也听说(AMP同样与近日放出了开放标准).但是至少目前比较成气候的CUDA,他只能用在N卡上，归根结底是由于CUDA用到N家的驱动，所以A卡不能用。那么OpenCL呢？很多大厂也都有自己独特的变种，所以还不能说真正的一次编译，全平台运行。而AMP就利用到了得天独厚的平台优势，假如你用windows，用AMP是不二之选。当然有个前提，天下没有免费的午餐，您的显卡要支持DX11才行。

说了这么多，让我们看看AMP什么样子吧，下面是段类似于Hello world的AMP 代码片段：

 1 #include <iostream>
 2 #include <amp.h>
 3 
 4  void MatrixMultiplySimple(std::vector<float>& vC, 
 5          const std::vector<float>& vA, 
 6          const std::vector<float>& vB, int M, int N, int W)
 7 {
 8   concurrency::array_view<const float,2> a(M, W, vA);
 9   concurrency::array_view<const float,2> b(W, N, vB);
10   concurrency::array_view<float,2> c(M, N, vC); c.discard_data();
11   concurrency::parallel_for_each(c.extent, 
12   [=](concurrency::index<2> idx) restrict(amp) {
13     int row = idx[0]; int col = idx[1];
14     float sum = 0.0f;
15     for(int i = 0; i < W; i++)
16       sum += a(row, i) * b(i, col);
17     c[idx] = sum;
18   });
19 }
20 
21  int main()
22  {
23      std::vector<float> vec_rslt(9);
24      std::vector<float> vec_A;
25      std::vector<float> vec_B;
26 
27      vec_A.push_back(1.0f);vec_A.push_back(0.0f);vec_A.push_back(0.0f);
28      vec_A.push_back(0.0f);vec_A.push_back(1.0f);vec_A.push_back(0.0f);
29      vec_A.push_back(0.0f);vec_A.push_back(0.0f);vec_A.push_back(1.0f);
30 
31      vec_B.push_back(11f);vec_B.push_back(21f);vec_B.push_back(31f);
32      vec_B.push_back(12f);vec_B.push_back(22f);vec_B.push_back(32f);
33      vec_B.push_back(13f);vec_B.push_back(23f);vec_B.push_back(33f);
34 
35      MatrixMultiplySimple(vec_rslt, vec_A, vec_B, 3,3,3);
36 
37      std::cout<<vec_rslt[0]<<"|"<<vec_rslt[1]<<"|"<<vec_rslt[2]<<std::endl;
38      std::cout<<vec_rslt[3]<<"|"<<vec_rslt[4]<<"|"<<vec_rslt[5]<<std::endl;
39      std::cout<<vec_rslt[6]<<"|"<<vec_rslt[7]<<"|"<<vec_rslt[8]<<std::endl;
40 
41      return 0;
42  }

如果你已经装上了vs11的beta，那么ctrl+c/ctrl+v赶紧体验下吧：）

好吧，在这个c++十分激进的年代（近期的c++11和这个AMP，喜欢研究的童鞋又可以虐待自己的脑细胞了），上面代码肯定让你有不少迷糊的地方，下面我根据个人经验跟大家分析下，分析的不好，不要扔鞋哦。。。

首先看line2，用api，一定要包含头文件，我们的AMP十分为大家着想，只需要这么简单一个头文件就行了。用过DX的童鞋一定还记得那include无尽的dxxxx.h和dxxxx.lib.

接着line4 -> line19是比较核心的地方, 这个是我们这个矩阵运算的精髓.8,9,10三个类型定义,我们暂且不管,接着往下看,一个

parallel_for_each

他其实是个函数,我第一眼还以为是个类似于关键字for的东东.

他有两个参数,第一个是种成为extent的东西,目前为了便于理解,你可以理解为一个数组的维度.第二个参数是一个lambda.这里大家都玩.NET的,对lambda一定不陌生,概念上不需要多讲,主要一点如果对c++lambda陌生,可以参考这里.

我们看看这个lambda里面都做了些什么?

[=]表示lambda里捕捉的变量按照传值来引用,

restrict(amp)表示这段代码运行在默认Device上.你还可以指定是cpu.(ps.在AMP 1st Release中, 有direct3d.)

concurrency::index<2> idx 这个lambda的参数表示的是个线程单位,当前我们可以认为lambda传几个idx,就有几个线程.

至于lambda里面的函数,就是利用数据并行做的计算,简单的矩阵相乘.

好吧,说到这里止不住,如果你有兴趣继续看下去,我再分享下AMP的一些基本概念:

通过上面代码分析,你一定比较AMP的基本运作机制.说到这里,有三个属于必须抛出来:index,extent,gird.

grid,按照字面理解,就是一个网格.我们可以把一个6x6的网格理解为一个grid.三维的话就类似于魔方了.

图中棕色图形就是一个index<2>(0,0),extent<2>(5,5)的grid.

蓝点就是index,红框就是两个小grid,一个是基于index<2>(0,2),extent<2>(2,2)的gird.另一个自己算下吧.

以后有时间,会继续和大家探讨AMP!

相关阅读:
Swift语言概览
 玩转可视化--来聊聊地图投影的学问
 网易云易盾朱浩齐：视听行业步入强监管和智能时代
 知物由学 | 人工智能、机器学习和深度学习如何在网络安全领域中应用？
数据分析怎么更直观？十分钟构建数据看板
 网易云易盾朱星星：最容易被驳回的10大APP过检项
 知物由学｜游戏开发者如何从容应对Unity手游风险？
知物由学 | 这些企业大佬如何看待2018年的安全形势？
4月第4周业务风控关注 | 网络犯罪经济每年1.5万亿美元 GDP居全球第12位
 工信部公示网络安全示范项目网易云易盾“自适应DDoS攻击深度检测和防御系统”入选
原文地址：https://www.cnblogs.com/Baesky/p/CPP_AMP_HelloWorld.html