CUDA笔记（11）

CUDA提供了一种cudaEvent_t的类型，这种类型Event可以统计GPU上面某一个任务或者代码段的精确运行时间

使用常量内存的光线跟踪器的性能比使用全局内存的性能提升了50%

__constant__将把变量的访问限制为只读。在接受了这种限制后，可节约内存带宽的原因：

(下面是贴了书上的内容)

对常量内存的单次操作可以广播到其他的临近线程，这将节约15次读取操作。

常量内存的数据将缓存起来，因此对相同地址的连续读操作将不会长生额外的内存通信量。

深层原因：当处理常量内存时，NVIDIA硬件将把单次内存读取操作广播到每个半线程束。在半线程束中包含了16个线程，即线程束中线程数量的一半。如果在半线程束中的每个线程都从常量内存的相同地址上读取数据，那么GPU只会产生一次读取请求并在随后将数据广播到每个线程。如果从常量内存中读取大量的数据，那么这种方式产生的内存流量只是使用全局内存时的1/16.

****

下面就是神秘的纹理。

相关阅读:
用nginx解决前端跨域问题
vue中router-link的详细用法
leetcode 148 排序链表
leetcode 146 LRU缓存机制
leetcode 101 对称二叉树
leetcode 84 柱状图中最大的矩形
leetcode76 最小覆盖子串
C++ map, unordered_map
python随机函数
丑数

原文地址：https://www.cnblogs.com/ubiwind/p/5093310.html