GPU上的基本线性代数

GPU上的基本线性代数

cuBLAS库提供了基本线性代数子例程（BLAS）的GPU加速实现。cuBLAS通过针对NVIDIA GPU进行了高度优化的嵌入式行业标准BLAS API来加速AI和HPC应用程序。cuBLAS库包含用于批处理操作，跨多个GPU的执行以及混合和低精度执行的扩展。使用cuBLAS，应用程序会自动受益于常规性能的改进和新的GPU架构。cuBLAS库包含在NVIDIA HPC SDK和CUDA Toolkit中。

cuBLAS多GPU扩展

cuBLASMg提供了最新的多GPU矩阵矩阵乘法，每个矩阵都可以2D块循环的方式在多个设备之间分配。cuBLASMg当前是CUDA数学库早期访问计划的一部分。

cuBLAS性能

cuBLAS库针对NVIDIA GPU的性能进行了高度优化，并利用张量内核加速了低精度和混合精度矩阵乘法。

cuBLAS的主要功能

全面支持所有152个标准BLAS例程
支持半精度和整数矩阵乘法
针对Volta和Turing张量Cores进行了优化的GEMM和GEMM扩展
针对各种深度学习模型中使用的大小调整了GEMM性能
支持CUDA流以进行并发操作

人工智能芯片与自动驾驶

原文地址：https://www.cnblogs.com/wujianming-110117/p/14418957.html