• 将TVM集成到PyTorch


    将TVM集成到PyTorch

    随着TVM不断展示出对深度学习执行效率的改进,很明显PyTorch将从直接利用编译器堆栈中受益。PyTorch的主要宗旨是提供无缝且强大的集成,而这不会妨碍用户。PyTorch现在具有基于TVM的官方后端torch_tvm

    用法很简单:

    import torch_tvm

    torch_tvm.enable()

    就是这样!然后,PyTorch将尝试在其JIT编译过程中,将所有可能的算子转换为已知的Relay算子。

    背景

    与许多其它ML框架不同,PyTorch公开了一个执行的编程接口。这种编程风格避免了图元编程,而专注于以Python方式直接控制n维数组(张量)。该框架最初非常适合模型的试验和开发,但不适用于自动性能优化或部署。为了利用优化的编译器技术,PyTorch最近引入了一些较大的改进来解决此问题。

    PyTorch 1.0引入了PyTorch IR,PyTorch专用的中间表示形式,用于类似于Relay的模型。可以通过模型跟踪,将PyTorch程序转换为IR,该跟踪记录模型或Python的子集TorchScript的执行。新的TVM后端将PyTorch的IR降低到了Relay,能够透明地提高PyTorch的性能,无需用户参与。

    整合与结果

    为了支持Relay,PyTorch JIT添加了两个功能:自定义转换过程和自定义子图解释器。

    torch_tvm启用时,可以转换到Relay PyTorch IR的子图Expr旨意被标记为Relay 兼容。由于PyTorch IR并不总是包含形状信息,因此在调用之前,无法以有用的方式编译任何子图。

    在用户调用期间,PyTorch JIT Runtime将确定输入形状信息,并使用新的Relay C ++构建系统,编译先前标记的子图。根据输入形状来缓存编译,以供后续运行。可以在README中找到更多详细信息。

    torch_tvm建立了一个连续的基准测试系统,该系统正在监视ResNet18在CPU上的性能。对于各种ResNet型号,TVM的性能都是默认PyTorch JIT后端的两倍以上。下图详细描述了在AWS c5n.4xlarge实例上,使用16个线程实现的每秒迭代次数(越大越好):

    这些结果令人鼓舞,该项目将继续致力于在更多模型上提高CPU推理速度。

    未来的工作

    现在,PyTorch JIT进行了大量工作来查找其IR的纯功能子集,馈送到Relay。避免了将采样和控制流信息映射到Relay,这不是必需的。将更多的PyTorch IR映射到Relay,可能会取得性能上的胜利,这是该项目的目标。PyTorch IR在开发过程中正在迅速变化,因此必须谨慎进行。

    将做更多的工作来确保PyTorch和TVM代码之间的切换是有效的。这包括统一线程模型,分配器以及减少与将输入复制到TVM相关的开销。

    help文件

    如果已经编写了PyTorch模型,最简单的入门方法就是使用torch.jit.trace方法

    import torch_tvm
    from your_model import model, inputs
     
    torch_tvm.enable(opt_level=3)
     
    iters = 100
    warmup = 10
     
    # Ensure your model is in eval mode and also turn off gradients.
    with torch.no_grad():
      # Use tuned parameters for better performance.
      with autotvm.apply_history_best("test/autotvm_tuning.log"):
        # This is where all the compilation happens.
        trace_tvm = torch.jit.trace(model, inputs)
        
        # Warmup
        for _ in range(warmup):
          _ = trace_tvm(*inputs)
     
        # Benchmark
        start = time.time()
        for _ in range(iters):
          _ = trace_tvm(*inputs)
        tvm_time = time.time() - start
        
        print("Took {}s to run {} iters".format(tvm_time, iters))

    注意,用于AVX2 LLVM编译的调整参数位于存储库test/文件夹中。

    如果直接使用Relay,可以通过(隐式)跟踪或TorchScript直接,从PyTorch函数中提取表达式:

    def add(a, b, c):
        return a + b + c
     
    # via tracing
    relay_graph = torch_tvm.to_relay(add, inputs)
     
    @torch.jit.script
    def mul(a, b, c):
        return a * b * c
     
    # via script
    relay_graph = torch_tvm.to_relay(mul, inputs)
    人工智能芯片与自动驾驶
  • 相关阅读:
    python学习笔记(33)pycharm中使用git
    VUE基础3-过滤器与生命周期
    VUE基础2-双向数据绑定
    VUE基础1方法与指令
    HTML基础之JS
    HTML基础之DOM操作
    HTML基础之CSS
    HTML基础之HTML标签
    python学习笔记(32)多线程&多进程
    python学习笔记(30)深拷贝、浅拷贝
  • 原文地址:https://www.cnblogs.com/wujianming-110117/p/14811668.html
Copyright © 2020-2023  润新知