NVIDIA GPU上的Tensor线性代数
cuTENSOR库是同类中第一个GPU加速的张量线性代数库,提供张量收缩,归约和逐元素运算。cuTENSOR用于加速在深度学习训练和推理,计算机视觉,量子化学和计算物理领域的应用。使用cuTENSOR,应用程序会自动受益于常规性能的改进和新的GPU架构。
cutensor性能
cuTENSOR库针对NVIDIA GPU的性能进行了高度优化。最新版本增加了对DMMA和TF32的支持。
cuTENSOR的主要功能
- 张量收缩,缩小和元素运算
- 混合精度支持
- 富有表现力的API,允许元素操作融合