还记得LeCun被拒的论文VICReg吗,今天我们就来说说它
在深度网络中权重和激活那个更重要?显然是权重,因为我们可以从权重推导出网络的激活。但是深度网络是非线性嵌入函数;我们只想要这种非线性嵌入。在这种嵌入基础上进行训练并获得结果(例如分类),我们要么需要在分类网络中使用线性分类器,要么需要在输出的特征中计算相似度。但是与权重衰减正则化相比,特征嵌入正则化在论文中却很少被提到和使用。通过权重衰减的正则化可以明显影响网络的性能,尤其是在小数据集上[3]。同样,特征嵌入也可以带来重大影响,例如避免模式崩溃(model collapse)。在本文中,我将介绍两个相关的特征嵌入正则化器:SVMax [1] 和 VICReg [2]。
SVMax 和 VICReg 都是无监督的正则化器,它们都支持监督学习和非/自监督学习,在训练期间可以处理单独的小批量,所以不需要对数据集进行其他的预处理。为了统一起见本篇文章将使用相同的符号来描述两者:我们有一个网络 N,它接受一个大小为 b 的 mini-batch输入 并生成一个 d 维嵌入,即我们有一个输出特征嵌入矩阵 E ∈ R^{b × d},如图 1 所示。矩阵 E 可以从任何网络层中提取,但它通常是从网络的倒数第二层中提取的,即在全局平均池化层之后。
图1:网络N在训练过程中,对于规模为b的小批量,生成特征嵌入矩阵E∈R^{b × d}。
SVMax 和 VICReg 都显式地对单层的特征嵌入输出进行了正则化,这样也就隐式地对网络的权重进行了正则化。对于 d 维特征嵌入,SVMax 和 VICReg 都旨在激活所有维度。换句话说,两个正则化器的目标是让每个神经元(维度)同样有可能触发。这样可以使某些维度(神经元)始终处于活动/非活动状态而与输入无关,也就避免了模式崩溃(model collapse)。
完整文章: