可能有许多小伙伴像我一样在学习CUDA时会遇到有些人的代码中出现iDivUp函数的情景,第一次时我以为它是集成在某个头文件中,后来找了很久发现情况并非这样。
其实它是一个需要自己写的函数,实现的功能也很简单:除法向上取整。因为我们都知道在为block或者grid划分线程时,每行和每列上的线程数都必须是整数(不同维度情况不同,但意思就是这个意思,我这里是二维情况,所以说行和列);这里就是求需要在每行和每列上分配多少个线程,当然只能向上取整。
inline int iDivUp(int a, int b){ return (a % b != 0) ? (a / b + 1) : (a / b); } ... dim3 threads(32, 8); dim3 grid(iDivUp(width, threads.x), iDivUp(height, threads.y));
这里使用内联函数的好处就是能够降低调用函数的开销,这对于对时间很重视的并行计算来说非常重要。