CUDA提供了一种cudaEvent_t的类型,这种类型Event可以统计GPU上面某一个任务或者代码段的精确运行时间
使用常量内存的光线跟踪器的性能比使用全局内存的性能提升了50%
__constant__将把变量的访问限制为只读。在接受了这种限制后,可节约内存带宽的原因:
(下面是贴了书上的内容)
对常量内存的单次操作可以广播到其他的临近线程,这将节约15次读取操作。
常量内存的数据将缓存起来,因此对相同地址的连续读操作将不会长生额外的内存通信量。
深层原因:当处理常量内存时,NVIDIA硬件将把单次内存读取操作广播到每个半线程束。在半线程束中包含了16个线程,即线程束中线程数量的一半。如果在半线程束中的每个线程都从常量内存的相同地址上读取数据,那么GPU只会产生一次读取请求并在随后将数据广播到每个线程。如果从常量内存中读取大量的数据,那么这种方式产生的内存流量只是使用全局内存时的1/16.
****
下面就是神秘的纹理。