2011年11月10日,据NVIDIA官方宣布CUDA Toolkit 4.1 RC1版本发布,目前CUDA注册开发者已经可以下载。
新版本包括一款新的基于LLVM的CUDA编译器,超过一千项新的图像处理功能,以及经过重新设计的具有自动性能分析和集成的专家指导功能的Visual Profiler。
新版本亮点
1、新的编译器
· 基于LLVM的新编译器为大量应用带来10%的性能提升。
2、GPU加速库带来新的升级版“drop-in”加速机制
· NPP库中加入了超过一千项新的图像处理函数;
· 新的cuSPARSE tri-diagonal solver比六核CPU中的MKL(数学核心库)快十倍;
· 新添加了针对MRG32k3a及Mersenne Twister(马特赛特旋转演算,MTGP11213)RNG算法的cuRAND支持;
· CUDA标准数学库新增对Bessel函数的支持;
· 利用ELL混合格式使稀疏矩向量乘法的速度提高了将近两倍;
3、改进并重新设计的开发工具
· 经过重新设计的Visual Profiler,具备自动性能分析及专家指导功能;
· CUDA-GDB支持新增对MPI应用调试、multi-context调试以及在设备代码中的使用assert()函数的支持;
· CUDA-MEMCHECK现在可以在设备代码中为分配的内存检测访问是否越界;
· Parallel Nsight 2.1 CDUAwarp查看器可以跨越整个CUDA warp查看变量和表达式;
· Parallel Nsight 2.1 CUDA profiler现在能够分析kernel内存活动性、执行延时以及指令吞吐量;
4、高级编程特性
· 从设备代码访问3D surfaces和cube maps;
· 增强了系统内存的非阻塞拷贝,移除了cudaHostRegister()对齐以及尺寸约束;
· 进程之间的点对点通信;
· 无需在nvidia-smi中重启系统即可重置GPU。
5、新增及改进的SDK代码示例
· simpleP2P示例现在支持任意Fermi GPU间的点对点通信;
· 新的grabcupNPP示例通过重复图形削减展示了交互式前景提取功能;
· 新增的示例演示了如何为光学流动、执行体积过滤及立方体映射纹理读取实现Horn-Schunck方法。