ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

1. 摘要

最近，神经网络的架构设计都是基于计算复杂度的间接度量，比如 FLOPs。然而，直接的度量比如运行速度，其实也会依赖于内存访问和平台特性等其它因素。

因此本文建议直接在目标平台上用直接度量进行测试。基于一系列控制条件实验，作者提出了设计高效网络结构的一些实用指导思想，并据此提出了一个称之为 ShuffleNet V2 的新结构。

2. 介绍

为了衡量计算复杂度，一个广泛采用的度量方式是浮点运算的次数 FLOPs，但是，它是一个间接的度量，是对我们真正关心的直接度量比如速度或者时延的一种近似估计。在以前的工作中，这种不一致已经被学者们所发现，比如 MobileNet v2 要比 NASNET-A 快很多，但是它们两者具有差不多的 FLOPs。

上图中在 GPU 和 ARM 两个平台上，具有相同 FLOPs 的模型运行速度也会相差很多。因此只用 FLOPs 来衡量计算复杂度是不充分的，也会导致得不到最优的网络设计。

导致这种不一致的主要有两个原因：一是影响速度的几个重要因素只通过 FLOPs 是考虑不到的，比如 MAC（Memory Access Cost）和并行度；二是具有相同 FLOPs 的模型在不同的平台上可能运行速度不一样。

因此，作者提出了设计有效网络结构的两个原则。一是用直接度量来衡量模型的性能，二是直接在目标平台上进行测试。

3. 高效网络设计的实用指导思想

首先，作者分析了两个经典结构 ShuffleNet v1 和 MobileNet v2 的运行时间。

可以看到，虽然以 FLOPs 度量的卷积占据了大部分的时间，但其余操作也消耗了很多运行时间，比如数据输入输出、通道打乱和逐元素的一些操作（张量相加、激活函数）。因此，FLOPs 不是实际运行时间的一个准确估计。

G1：同样大小的通道数可以最小化 MAC。

深度可分离卷积中的点卷积比如 1×1 占据了大部分的复杂度。假设输入的特征图大小为

简单起见，我们假设计算设备的缓存足够大能够存放下整个特征图和参数。那么内存访问代价就为

M A C = h w (c 1 + c 2) + c 1 c 2 = (h w) 2 (

当且仅当

可以看到，当比值接近 1:1 的时候，网络的测试速度最快。

G2：太多的分组卷积会增加 MAC。

分组卷积是现在网络结构设计的核心，它通过通道之间的稀疏连接（也就是只和同一个组内的特征连接）来降低计算复杂度。一方面，它允许我们使用更多的通道数来增加网络容量进而提升准确率，但另一方面随着通道数的增多也对带来更多的 MAC。

针对 1×1 的分组卷积，我们有：

B = h * w * 1 * 1 * c 1 g * c 2 g * g = h w c 1 c 2 g

M A C = h w (c 1 + c 2) + c 1 c 2 g = h w c 1 + B g c 1 + B h

其中

可以看到，分为 8 个组要比 1 个组慢得多。因此，作者建议要根据目标平台和任务小心地选择分组的组数，不能简单地因为可以提升准确率就选择很大的组数，而忽视了因此带来的巨大计算负担。

G3：网络碎片化会减少并行度。

在 Inception 结构中，一般会有多个分支，其中的每一个卷积或者池化操作称之为一个碎片操作。这种碎片结构有利于提升准确率，但却对设备的并行计算不友好，而且也会带来同步等额外的开销。因此，作者设计了下面的一系列结构块，堆叠 10 次组成一个网络，然后在同等 FLOPs 的情况下测试它们各自的运行速度。

实验结果如下所示，可以看到在 GPU 上碎片结构会大大降低运算速度，而在 CPU 上则不是那么明显。

G4：逐元素的操作不可忽视。

这里逐元素（Element-wise）的操作包括张量相加，ReLU 等，它们的 FLOPs 很小但却会有相对较大的 MAC，这里作者认为深度卷积也是逐元素的操作，因为它们的 MAC/FLOPs 比值比较大。

作者采用了 ResNet 的瓶颈结构来实验，也就是一个 conv 1×1->conv 3×3->conv 1×1 的结构，分别去掉其中的 ReLU 和跳跃连接，然后测试它们各自的运行速度。可以看到无论是去掉其中哪一个操作，运行速度都会加快。

因此，高效的网络结构应该满足：1. 使用平衡的卷积，也就是通道数一样；2. 合理使用分组卷积；3. 减少碎片度；4. 减少逐元素操作。这些在实际中都应该被考虑到而不是仅仅只关注 FLOPs，比如 ShuffleNet V1 严重依赖分组卷积，这违反了 G2；MobileNet v2 利用了反转瓶颈结构，这违反了 G1，而且在通道数较多的扩展层使用 ReLU 和深度卷积，违反了 G4，它是自动生成的结构碎片化很严重，这违反了 G3。

4. ShuffleNet V2

ShuffleNet V1 引入了分组点卷积、瓶颈结构和通道打乱，这与上面的指导思想相违背，因此我们要做的就是维持一个较大并且等宽的通道但不利用密集卷积或者太多的分组卷积。

因此作者引入了一个通道分割（channel split）操作，如上图（c）所示。在每个单元的开始，我们将特征图的

针对空间下采样，通道分割被移除，然后输出通道数变为两倍，详细信息如上图（d）所示。

上述的基本块叠加在一起来组成最后的 ShuffleNet V2，其中

ShuffleNet V2 不仅仅非常高效，而且准确率也很高。有两个主要的原因：一是高效的基本块可以允许我们的特征通道数比较多，网络容量比较大；二是一半的特征图直接进入到下一个模块，这可以看作是一种类似于 DenseNet 和 CondenseNet 的特征复用。

在 DenseNet 中，作者分析了不同层之间权重的相关性，如下图左边所示，可以看到，相邻层之间的关联性是远远大于其它层的，这也就是说所有层之间的密集连接可能是多余的。

在 ShuffleNet V2 中，可以证明，第

5. 实验结果

此外，ShuffleNet V2 的结构也可以用来构建大的模型或者和残差结构、SE 等相结合具体细节可参考原论文。

相关阅读:
python数据分析实例(1)
Latex学习(1): longtable的分页显示保留表头与标题L
pl/sql学习(5): 触发器trigger/事务和锁
pl/sql学习(6): 引号/程序调试/列中的字符串合并/正则表达式
pl/sql学习(4): 包package
SQL入门(4): 嵌入式SQL语言
我觉得vue原理就是 Object.defineProperty，简单实现了set和get，谢谢
vue组件一
css3 flex盒子布局
php连接数据库、创建数据库、创建数据表

原文地址：https://www.cnblogs.com/ziwh666/p/12485639.html