1 cuda 优化
copy函数
使用cublas 库函数的程序框架
1. cublasInit();
2. 将要计算的变量拷贝到显存上
3. 调用cublas core function
4. 将计算后变量拷贝回到内存上
5. cublasShutdown();
第二和第四步的说明:将要计算的变量“放到”显存上,这里有两种方式来实现:第一种利用cublas提供的helper function cublasAlloc和cublasSetMatrix,第二种:利用cuda提供的cudamalloc 和cudaMemcpy。经过测试,这两种方式的执行效率相差不大
2opencl优化相关的文章
http://hi.baidu.com/fsword73?page=2