找了不知道多少教程,终于找到靠谱的nsight的:
http://blog.csdn.net/mysniper11/article/details/8003644
还有两个视频的相关:
http://blog.csdn.net/endlch/article/details/44538579
同一个warp内的线程总是被一同激活且一同被分配任务,因此不需要同步。因此最好把需要同步的线程放在同一个warp内,这样就减少了__syncthreads()的指令
http://www.heyan8.cn/classic/2013/9/5/02071.html
***
nsight和visual profiler晚上的时候都找到对应的教程了,过些天总结一下。