• 使用TensorRT集成推理inference


    使用TensorRT集成推理inference

    使用TensorRT集成进行推理测试。

    使用ResNet50模型对每个GPU进行推理,并对其它模型进行性能比较,最后与其它服务器进行比较测试。

    1. ResNet-50 Inference performance: Throughput vs Batch size

    在每个GPU上使用不同的批处理大小(从1到32)运行带有预训练的ResNet50模型的吞吐量测试。             

    图1显示了吞吐量(帧/秒)的结果。

    结果在gpu和潜伏期(在右纵轴上表示)上是一致的。

     

    Figure 1.  Resnet_50 Inference on each GPU. Server with 6 GPU’s

    上面的曲线图显示,使用Batchsize为1-8的批处理可以达到7ms的延迟,并且从y轴来看,当Batchsize为4时,在7ms延迟窗口内我们可以得到670个帧/秒。             

    在运行测试时,我们发现默认情况下推理inference是在设备0上进行的,这意味着当前的TensorRT™ 推理引擎不能与GPU-GPU通信一起工作以最大限度地利用服务器中可用的GPU。如果目标是在多个GPU中运行同一个图形来提高吞吐量,Nvidia建议现在使用原生TensorFlow。             

    另一方面,TensorRT推理服务器(TRTIS)支持多个GPU,但不支持运行分布在多个GPU上的单个推理。TRTIS可以在多个GPU上运行多个模型(和/或同一模型的多个实例)以提高吞吐量。

    2.All Models: Images/sec vs batch size vs Neural models

     

    Figure 2. Throughput Inference Performance with Several Neural Models and Batch Sizes

    使用不同的神经模型在不同的Batchsize中进行推理测试。

    以Batchsize大小1、2、4、8、26和32显示运行推理inference的吞吐量和延迟。ResNet50以最低的延迟产生最高的吞吐量(图像/秒)。

     Figure 3. Latency Inference Performance with Several Neural Models and Batch Sizes

    3 All Models - R7425-T4-16GB versus Other servers and NVIDIA GPU

     Figure 4. Throughput Inference Performance on R7425-T4-16GB Server versus Other Servers 

    Figure 5. Latency Inference performance on R7425-T4-16GB Server versus other servers

     使用几种模型在服务器R740-P4和R7245-P4上进行了推理测试,并将它们的结果与R7425-T4-16GB的结果进行了比较。服务器R7425-T4-16GB的性能比ResNet50型号上的其它服务器快1.8倍,延迟只有一半。

    人工智能芯片与自动驾驶
  • 相关阅读:
    对象,对象引用变量理解
    String 和 new String()的区别
    基本类型和对象类型的区别
    MySQL数据库设计总结
    CSS自定义字体的实现,前端实现字体压缩
    GitHub密钥生成
    ES3、ES5、ES6对象代理的写法差异
    Node.js+Navicat for MySQL实现的简单增删查改
    Vue项目部署到服务器
    Node.js+Navicat for MySQL实现的简单增删查改
  • 原文地址:https://www.cnblogs.com/wujianming-110117/p/14051644.html
Copyright © 2020-2023  润新知