• CUDA笔记(11)


    CUDA提供了一种cudaEvent_t的类型,这种类型Event可以统计GPU上面某一个任务或者代码段的精确运行时间

    使用常量内存的光线跟踪器的性能比使用全局内存的性能提升了50%

    __constant__将把变量的访问限制为只读。在接受了这种限制后,可节约内存带宽的原因:

    (下面是贴了书上的内容)

    对常量内存的单次操作可以广播到其他的临近线程,这将节约15次读取操作。

    常量内存的数据将缓存起来,因此对相同地址的连续读操作将不会长生额外的内存通信量。

    深层原因:当处理常量内存时,NVIDIA硬件将把单次内存读取操作广播到每个半线程束。在半线程束中包含了16个线程,即线程束中线程数量的一半。如果在半线程束中的每个线程都从常量内存的相同地址上读取数据,那么GPU只会产生一次读取请求并在随后将数据广播到每个线程。如果从常量内存中读取大量的数据,那么这种方式产生的内存流量只是使用全局内存时的1/16.

    ****

    下面就是神秘的纹理。

  • 相关阅读:
    用nginx解决前端跨域问题
    vue中router-link的详细用法
    leetcode 148 排序链表
    leetcode 146 LRU缓存机制
    leetcode 101 对称二叉树
    leetcode 84 柱状图中最大的矩形
    leetcode76 最小覆盖子串
    C++ map, unordered_map
    python随机函数
    丑数
  • 原文地址:https://www.cnblogs.com/ubiwind/p/5093310.html
Copyright © 2020-2023  润新知