训练技巧详解【含有部分代码】Bag of Tricks for Image Classification with Convolutional Neural Networks

我们将简要介绍 ResNet 架构，特别是与模型变体调整相关的模块。ResNet 网络由一个输入主干、四个后续阶段和一个最终输出层组成，如图 1 所示。输入主干有一个 7×7 卷积，输出通道有 64 个，步幅为 2，接着是 3 ×3 最大池化层，步幅为 2。输入主干（input stem）将输入宽度和高度减小 4 倍，并将其通道尺寸增加到 64。

从阶段 2 开始，每个阶段从下采样块开始，然后是几个残差块。在下采样块中，存在路径 A 和路径 B。路径 A 具有三个卷积，其卷积核大小分别为 1×1、3×3 和 1×1。第一个卷积的步幅为 2，以将输入长度和宽度减半，最后一个卷积的输出通道比前两个大 4 倍，称为瓶颈结构。路径 B 使用步长为 2 的 1×1 卷积将输入形状变换为路径 A 的输出形状，因此我们可以对两个路径的输出求和以获得下采样块的输出。残差块类似于下采样块，除了仅使用步幅为 1 的卷积。

我们可以改变每个阶段中残差块的数量以获得不同的 ResNet 模型，例如 ResNet-50 和 ResNet-152，其中的数字表示网络中卷积层的数量。

改进版本（一个比一个精度高）

1*1的卷积，最好不用于stride=2，降低特征图尺寸用，原文说会丢失3/4的信息（但是精度为什么没有降很多呢？）

resnet-B 就把降低特征图尺寸的任务交给了3*3的卷积。

resnet-C 把最开始的7*7*64大卷积换成下面图中的表示，红体字表示channel。ResNet-50-C这种修改，虽然对计算量影响不大，不过根据我的经验，对速度的影响应该会比较大。

resnet-D 不用1*1的卷积降低特征图尺寸用，用到的x部分。

图 2：三个 ResNet 变体。ResNet-B 修改 ResNet 的下采样模块。ResNet-C 进一步修改输入主干。在此基础上，ResNet-D 再次修改了下采样块。

表 5：将 ResNet-50 与三种模型变体进行模型大小（参数数量）、FLOPs 和 ImageNet 验证准确率（top-1、top-5）的比较。

5 训练方法改进

5.1 余弦学习率衰减（pytorch有）

pytorch：scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=5,eta_min=4e-08)

传统的两种衰减：

He et al. [9] decreases rate at 0.1 for every 30 epochs, we call it “step decay”. Szegedy et al. [26]
decreases rate at 0.94 for every two epochs

Loshchilov 等人 [18] 提出余弦退火策略，其简化版本是按照余弦函数将学习速率从初始值降低到 0。假设批次总数为 T（忽略预热阶段），然后在批次 t，学习率η_t 计算如下：

5.2 标签平滑（带代码）

补充：在这里学习到论文里说到的两个迭代之间相差0.94倍。

标签平滑的想法首先被提出用于训练 Inception-v2 [26]。它将真实概率的构造改成：

其中ε是一个小常数，K 是标签总数量。

图 4：ImageNet 上标签平滑效果的可视化。顶部：当增加ε时，目标类别与其它类别之间的理论差距减小。下图：最大预测与其它类别平均值之间差距的经验分布。很明显，通过标签平滑，分布中心处于理论值并具有较少的极端值。

# -*- coding: utf-8 -*-
"""
qi=1-smoothing(if i=y)
qi=smoothing / (self.size - 1) (otherwise)#所以默认可以fill这个数，只在i=y的地方执行1-smoothing
另外KLDivLoss和crossentroy的不同是前者有一个常数
predict = torch.FloatTensor([[0, 0.2, 0.7, 0.1, 0],
[0, 0.9, 0.2, 0.1, 0],
[1, 0.2, 0.7, 0.1, 0]])
对应的label为
tensor([[ 0.0250, 0.0250, 0.9000, 0.0250, 0.0250],
[ 0.9000, 0.0250, 0.0250, 0.0250, 0.0250],
[ 0.0250, 0.0250, 0.0250, 0.9000, 0.0250]])
区别于one-hot的
tensor([[ 0., 0., 1., 0., 0.],
[ 1., 0., 0., 0., 0.],
[ 0., 1., 0., 0., 0.]])
"""
import torch
import torch.nn as nn
from torch.autograd import Variable
import matplotlib.pyplot as plt
import numpy as np
class LabelSmoothing(nn.Module):
"Implement label smoothing. size表示类别总数 "
def __init__(self, size, smoothing=0.0):
super(LabelSmoothing, self).__init__()
self.criterion = nn.KLDivLoss(size_average=False)
#self.padding_idx = padding_idx
self.confidence = 1.0 - smoothing#if i=y的公式
self.smoothing = smoothing
self.size = size
self.true_dist = None
def forward(self, x, target):
"""
x表示输入 (N，M)N个样本，M表示总类数，每一个类的概率log P
target表示label（M，）
"""
assert x.size(1) == self.size
true_dist = x.data.clone()#先深复制过来
#print true_dist
true_dist.fill_(self.smoothing / (self.size - 1))#otherwise的公式
#print true_dist
#变成one-hot编码，1表示按列填充，
#target.data.unsqueeze(1)表示索引,confidence表示填充的数字
true_dist.scatter_(1, target.data.unsqueeze(1), self.confidence)
self.true_dist = true_dist
return self.criterion(x, Variable(true_dist, requires_grad=False))
if __name__=="__main__":
# Example of label smoothing.
crit = LabelSmoothing(size=5,smoothing= 0.1)
#predict.shape 3 5
predict = torch.FloatTensor([[0, 0.2, 0.7, 0.1, 0],
[0, 0.9, 0.2, 0.1, 0],
[1, 0.2, 0.7, 0.1, 0]])
v = crit(Variable(predict.log()),
Variable(torch.LongTensor([2, 1, 0])))
# Show the target distributions expected by the system.
plt.imshow(crit.true_dist)

调用的时候注意

module的init函数里面，fc后面要加上LogSoftmax函数，因为KLV要求输入log概率
self.Logsoftmax=nn.LogSoftmax()
forward函数里
x = self.fc(x)
x=self.Logsoftmax(x)

5.3 知识蒸馏（模型压缩中的）

在知识蒸馏 [10] 中，我们使用教师模型来帮助训练当前模型（被称为学生模型）。教师模型通常是具有更高准确率的预训练模型，因此通过模仿，学生模型能够在保持模型复杂性相同的同时提高其自身的准确率。一个例子是使用 ResNet-152 作为教师模型来帮助训练 ResNet-50。

5.4 混合训练

在混合训练（mixup）中，每次我们随机抽样两个样本 (x_i,y_i) 和 (x_j,y_j)。然后我们通过这两个样本的加权线性插值构建一个新的样本，训练只在新样本中训练：

其中 λ∈[0,1] 是从 Beta(α, α) 分布提取的随机数。在混合训练中，我们只使用新的样本 (x hat, y hat)。

5.5 实验结果

表 6：通过堆叠训练改进方法，得到的 ImageNet 验证准确率。基线模型为第 3 节所描述的。

作者之后又在另外一个数据集上试了下，证明可以。

6 迁移学习

自 2012 年 AlexNet 大展神威以来，研究者已经提出了各种卷积架构，包括 VGG、NiN、Inception、ResNet、DenseNet 和 NASNet 等，我们会发现模型的准确率正稳定提升。

但是现在这些提升并不仅仅来源于架构的修正，还来源于训练过程的改进：包括损失函数的优化、数据预处理方法的提炼和最优化方法的提升等。在过去几年中，卷积网络与图像分割出现大量的改进，但大多数在文献中只作为实现细节而简要提及，而其它还有一些技巧甚至只能在源代码中找到。

在这篇论文中，李沐等研究者研究了一系列训练过程和模型架构的改进方法。这些方法都能提升模型的准确率，且几乎不增加任何计算复杂度。它们大多数都是次要的「技巧」，例如修正卷积步幅大小或调整学习率策略等。总的来说，采用这些技巧会产生很大的不同。因此研究者希望在多个神经网络架构和数据集上评估它们，并研究它们对最终模型准确率的影响。

研究者的实验表明，一些技巧可以显著提升准确率，且将它们组合在一起能进一步提升模型的准确率。研究者还对比了基线 ResNet 、加了各种技巧的 ResNet、以及其它相关的神经网络，下表 1 展示了所有的准确率对比。这些技巧将 ResNet50 的 Top-1 验证准确率从 75.3％提高到 79.29％，还优于其他更新和改进的网络架构。此外，研究者还表示这些技巧很多都可以迁移到其它领域和数据集，例如目标检测和语义分割等。

相关阅读:
Flex Charting: Format Your X And Y Axis
Flex Charting: Format Your Data Tips The Same As Your Axes
高质量的开源Flex UI组件库项目（FlexLib）
今天学习Flex3.2嵌入图片，值得说道的是如何嵌入scale9 缩放的图像
zz[as3 hack技术]垃圾回收机强制执行
Spark Skinning (including SkinnableComponent) Functional and Design Specification
Flex DataTransforms类的理解
关于AS3中弱引用的一点理解
flex 元字符
收集整理了一些AS3中常用到的公式

原文地址：https://www.cnblogs.com/think90/p/11610923.html