自监督SOTA框架 | BYOL(优雅而简洁)

自监督SOTA框架 | BYOL(优雅而简洁) | 2020
- 文章原创自微信公众号「机器学习炼丹术」
- 作者：炼丹兄
- 联系方式：微信cyx645016617
本篇文章主要讲解两个无监督2020年比较新比较火的论文：
- 论文名称：“Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning”
- 论文链接：https://arxiv.org/pdf/2006.07733.pdf
0 综述

BYOL是Boostrap Your Own Latent，这个无监督框架非常的优雅和简单，而且work。收到了很多人的称赞，上一个这样起名的在我认知中就是YOLO。两者都非常简单而优美。

1 数学符号

这个结构有两个网络，一个是online network，一个是target network。
- online network：用( heta)来表示online network的参数，包含，encoder(f_{ heta}),projector(g_{ heta})和predictor(q_ heta)
- target netowrk:使用(xi)来表示参数，也有(f_{xi})和(g_{xi}),但是没有predictor。
我们会更新online network，然后用滑动平均的方式，更新target network：

(xileftarrow auxi + (1- au) heta)

现在我们有一个图像数据集D，其中获取一个图片(xin D),然后我们对这个D做不同的图像增强，得到了两个新的分布(Tau)和(Tau'),然后从两个新分布中获取的图片，用(v)和(v')标记。也就是说，如果用(t())和(t'())表示对图像做图像增强的过程，那么(v=t(x),v'=t'(x))。

2 损失函数

我们现在有(v)，经过encoder，得到(y=f_{ heta}(v)),经过prejector，得到(z=g_{ heta}(y)),经过predictor，得到(q_{ heta}(z));同理，target network也是如此，只是没有最后的predictor，最终得到(z')。

我们对(z')和(q_{ heta}(z))做l2-normalization，含义为取出这两个隐含变量的绝对大小，而保留其方向性，为后面要做的向量点乘做铺垫。

上图中，(ar{q_{ heta}}(z)=frac{q_{ heta}(z)}{||q_{ heta}(z)||_2})，损失函数不难，其实有点像是：(2-2cos heta)

上面，我们得到了损失(L_{ heta,xi})，接下来，我们需要计算symmetric loss，这个是把v和v‘分别放入target network和online network计算，得到的(widetilde{L}_{ heta,xi}),然后论文中提到，通过SGD来最小化

(L^{BYOL}_{ heta,xi}=L_{ heta,xi} + widetilde{L}_{ heta,xi})

需要注意的是，这个优化的过程，仅仅更新online network，target network的参数不变化，目的是让online network逐渐拥有target network的性能

因此，这个BYOL的整个训练过程可以浓缩成下面的两行：

3 细节部分

3.1 图像增强

3.2 结构

上图中的encoder(f_{ heta},f_{xi})使用的是resnet50和post activation，这里第一次看到post activation，就去看了一下发现，其实就是先卷积还是先激活层，如果relu放在conv后面就是post activation，relu放在conv前面就是pre activation。

经过encoder，一个图片会输出2048个features，然后经过MLP，特征扩展到4096个特征，最终输出256个特征，在SimCLR模型中，MLP后跟了一个BN层和Relu激活层，但是在BYOP中没有BN层。

3.3 优化器

使用的是LARS优化器，使用cosine 学习率衰减策略，训练1000epoch，其中包含10个warn-up epoch。学习率设置的为0.2。

至于online更新到target的参数( au),( au_{base}=0.996),

( au=1-(1- au_{base})(cosfrac{pi k}{K}+1)frac{1}{2})

k is current training step and K is maximum training steps.

3.4 财力

batchsize为4096，分布在512个TPU v3的核，训练encoder大约需要8个hour。

4 模型评估

在ImageNet上做监督学习，先用无监督训练好encoder后，然后用标准的resnet50进行监督微调：

前面同行，这里的监督训练也是获取ImageNet上的少部分数据集进行训练，所以叫做semi-supervised：

这样的方法在其他的分类数据集上的效果：

觉得笔记不错的，可以关注作者的微信公众号「机器学习炼丹术」。
人不可傲慢。
相关阅读:
dubbo-admin 2.0安装部署
 一文多发神器
 springboot整合druid踩坑记录
 thymeleaf中的重定向的绝对路径问题
 路径问题
 sp_executesql介绍和使用
 java.net.UnknownHostException: api.weixin.qq.com解决办法
 调用百度地图示例
 浅析分布式架构
 城乡医保用户角色未分配修改
原文地址：https://www.cnblogs.com/PythonLearner/p/14346274.html

自监督SOTA框架 | BYOL(优雅而简洁) | 2020

0 综述

1 数学符号

2 损失函数

3 细节部分

3.1 图像增强

3.2 结构

3.3 优化器

3.4 财力

4 模型评估