CUDA矩形乘法——常规模型

上篇中http://www.cnblogs.com/Romi/archive/2012/05/09/2492363.html，出了点问题，也是后来才发现的，意识到每个块中最多只能有512个线程，而该文的块大小为64*64，显然超过了512，因此此篇将其改为16，即TILE_WIDTH=16。其他代码还是和上篇一样。

矩阵计算模型的数组元素索引如下图所示

测试结果如下：

GPU计算时间变长了，上篇那样数组中的元素并没有全计算到。可以看到GPU计算时间虽然也有点多，但还是比CPU串行计算要快。

此文中数据保存在全局存储器，进行计算时，从全局存储区取数据进行计算，而从全局存储器取数据的速度是很慢的，而且取矩阵元素有很多重复，即一个矩阵元素取了好多次，这些都会对计算性能产生影响，因此还可以进一步优化。

相关阅读:
【Swing】简单的计算器
【SQL】嵌套查询与子查询
【网络协议抓包分析】TCP传输控制协议（连接建立、释放）
【网络协议抓包分析】IP互联网协议
******常见数据库笔试题*****
OSI参考模型 VS TCP/IP参考模
TCP/IP四层模型
数组实现栈的功能
子网掩码怎么计算
C# 启动和结束一个线程

原文地址：https://www.cnblogs.com/Romi/p/2506787.html