• CUDA学习(五)之使用共享内存(shared memory)进行归约求和(一个包含N个线程的线程块)


    共享内存(shared memory)是位于SM上的on-chip(片上)一块内存,每个SM都有,就是内存比较小,早期的GPU只有16K(16384),现在生产的GPU一般都是48K(49152)。

    共享内存由于是片上内存,因而带宽高,延迟小(较全局内存而言),合理使用共享内存对程序效率具有很大提升。

    下面是使用共享内存对一个数组进行求和,使用全局内存进行归约求和可以浏览https://www.cnblogs.com/xiaoxiaoyibu/p/11397205.html

    #pragma once
    #include "cuda_runtime.h"
    #include "device_launch_parameters.h"
    #include "device_functions.h"
    
    #include <iostream>
    
    using namespace std;
    
    const int N = 128;        //数组长度
    
    
    __global__ void d_ParallelTest(double *Para)
    {
        int tid = threadIdx.x;
    
        //----使用shared memory--------------------------------------------------------------
    
        __shared__ double s_Para[N];        //定义长度为N的共享内存数组
        if (tid < N)                        //循环整个数组,每个线程负责将一个元素从全局内存载入共享内存
            s_Para[tid] = Para[tid];
        __syncthreads();                    //(红色下波浪线提示由于VS不识别,不影响运行)同步,等待所有线程把自己负责的元素载入到共享内存再执行下面代码
    for (int index = 1; index < blockDim.x; index *= 2) {
         __syncthreads();           //同步,以防止归约过程中某个线程运行速度过快导致计算错误(后面线程计算使用错误的前面线程结果值
        if (tid % (2 * index) == 0) 
        {
          s_Para[tid]
    += s_Para[tid + index];
        }
      }

      if (tid == 0)              //整个数组相加完成后,将共享内存数组0号元素的值赋给全局内存数组0号元素,最后返回CPU端
        Para[tid]
    = s_Para[tid];
    }

    void ParallelTest()
    {

      double *Para;
      cudaMallocManaged((
    void **)&Para, sizeof(double) * N); //统一内存寻址,CPU和GPU都可以使用

      double ParaSum = 0;

      for (int i=0; i<N; i++)
      {
        Para[i]
    = (i + 1) * 0.1;         //数组赋值
        ParaSum += Para[i];            //CPU端数组累加
      }
      cout
    << " CPU result = " << ParaSum << endl;   //显示CPU端结果

      double d_ParaSum;
      d_ParallelTest
    << < 1, N>> > (Para);        //调用核函数(一个包含N个线程的线程块)

      cudaDeviceSynchronize();               //等待设备端同步
      d_ParaSum = Para[0];                  //从累加过后数组的0号元素得出结果
      cout << " GPU result = " << d_ParaSum << endl; //显示GPU端结果
    }

    int main()
    {

      //并行归约
      ParallelTest();

      system(
    "pause");

      return 0;
    }

     结果如下(CPU和GPU结果一致):

  • 相关阅读:
    python遍历字典元素
    Asp.net网站优化【转】
    三、HTTP协议
    二、 OSI模型的实现TCP 、IP
    一、OSI模型
    JVM原理:4 运行期优化
    JS:jquery插件表格单元格合并.
    28-语言入门-28-1的个数
    27-语言入门-27-成绩转换
    26-语言入门-26-兄弟郊游问题
  • 原文地址:https://www.cnblogs.com/xiaoxiaoyibu/p/11402607.html
Copyright © 2020-2023  润新知