NLP（四十四）：BERTflow

NLP（四十四）：BERTflow
BERT-flow来自论文《On the Sentence Embeddings from Pre-trained Language Models》，中了EMNLP 2020，主要是用flow模型校正了BERT出来的句向量的分布，从而使得计算出来的cos相似度更为合理一些。由于笔者定时刷Arixv的习惯，早在它放到Arxiv时笔者就看到了它，但并没有什么兴趣，想不到前段时间小火了一把，短时间内公众号、知乎等地出现了不少的解读，相信读者们多多少少都被它刷屏了一下。

从实验结果来看，BERT-flow确实是达到了一个新SOTA，但对于这一结果，笔者的第一感觉是：不大对劲！当然，不是说结果有问题，而是根据笔者的理解，flow模型不大可能发挥关键作用。带着这个直觉，笔者做了一些分析，果不其然，笔者发现尽管BERT-flow的思路没有问题，但只要一个线性变换就可以达到相近的效果，flow模型并不是十分关键。

余弦相似度的假设 #

一般来说，我们语义相似度比较或检索，都是给每个句子算出一个句向量来，然后算它们的夹角余弦来比较或者排序。那么，我们有没有思考过这样的一个问题：余弦相似度对所输入的向量提出了什么假设呢？或者说，满足什么条件的向量用余弦相似度做比较效果会更好呢？

我们知道，两个向量 $x, y$

$\begin{matrix} (1) & \cos (x, y) = \frac{\sum_{i = 1}^{d} x_{i} y_{i}}{\sqrt{\sum_{i = 1}^{d} x_{i}^{2}} \sqrt{\sum_{i = 1}^{d} y_{i}^{2}}} \end{matrix}$

然而，别忘了一件事情，上述等号只在“标准正交基”下成立。换句话说，向量的“夹角余弦”本身是具有鲜明的几何意义的，但上式右端只是坐标的运算，坐标依赖于所选取的坐标基，基底不同，内积对应的坐标公式就不一样，从而余弦值的坐标公式也不一样。

因此，假定BERT句向量已经包含了足够的语义（比如可以重构出原句子），那么如果它用公式 $(1)$

当然，这不算是什么推导，只是一个启发式引导，它告诉我们如果一个向量的集合满足各向同性，那么我们可以认为它源于标准正交基，此时可以考虑用式 $(1)$

flow模型的碎碎念 #

依笔者来看，flow模型真的是一种让人觉得一言难尽的模型了，关于它的碎碎念又可以写上几页纸，这里尽量长话短说。2018年中，OpenAI发布了Glow模型，效果看起来很不错，这吸引了笔者进一步去学习flow模型，甚至还去复现了一把Glow模型，相关工作记录在《细水长flow之NICE：流模型的基本概念与实现》和《细水长flow之RealNVP与Glow：流模型的传承与升华》中，如果还不了解flow模型的，欢迎去看看这两篇博客。简单来说，flow模型是一个向量变换模型，它可以将输入数据的分布转化为标准正态分布，而显然标准正态分布是各向同性的，所以BERT-flow就选择了flow模型。

那么flow模型有什么毛病吗？其实之前在文章《细水长flow之可逆ResNet：极致的暴力美学》就已经吐槽过了，这里重复一下：

（flow模型）通过比较巧妙的设计，使得模型每一层的逆变换比较简单，而且雅可比矩阵是一个三角阵，从而雅可比行列式很容易计算。这样的模型在理论上很优雅漂亮，但是有一个很严重的问题：由于必须保证逆变换简单和雅可比行列式容易计算，那么每一层的非线性变换能力都很弱。事实上像Glow这样的模型，每一层只有一半的变量被变换，所以为了保证充分的拟合能力，模型就必须堆得非常深（比如256的人脸生成，Glow模型堆了大概600个卷积层，两亿参数量），计算量非常大。

看到这里，读者就能理解为什么笔者开头说看到BERT-flow的第一感觉就是“不对劲”了。上述吐槽告诉我们，flow模型其实是很弱的；然后BERT-flow里边所用的flow模型是多大呢？是一个level=2、depth=3的Glow模型，这两个参数大家可能没什么概念，反正就是很小，以至于整个模型并没有增加什么计算量。所以，笔者的“不对劲”直觉就是：

flow模型本身很弱，BERT-flow里边使用的flow模型更弱，所以flow模型不大可能在BERT-flow中发挥至关重要的作用。反过来想，那就是也许我们可以找到更简单直接的方法达到BERT-flow的效果。

标准化协方差矩阵 #

经过探索，笔者还真找到了这样的方法，正如本文标题所说，它只是一个线性变换。

其实思想很简单，我们知道标准正态分布的均值为0、协方差矩阵为单位阵，那么我们不妨将句向量的均值变换为0、协方差矩阵变换为单位阵试试看？假设（行）向量集合为 ${x_{i}}_{i = 1}^{N}$

$\begin{matrix} (2) & {\tilde{x}}_{i} = (x_{i} - μ) W \end{matrix}$

使得 ${{\tilde{x}}_{i}}_{i = 1}^{N}$

均值为0很简单，让 $μ = \frac{1}{N} \sum_{i = 1}^{N} x_{i}$

$\begin{matrix} (3) & Σ = \frac{1}{N} \sum_{i = 1}^{N} (x_{i} - μ)^{⊤} (x_{i} - μ) = (\frac{1}{N} \sum_{i = 1}^{N} x_{i}^{⊤} x_{i}) - μ^{⊤} μ \end{matrix}$

${{\tilde{x}}_{i}}_{i = 1}^{N}$

$\begin{matrix} (4) & W^{⊤} Σ W = I \Rightarrow Σ = {(W^{⊤})}^{- 1} W^{- 1} = {(W^{- 1})}^{⊤} W^{- 1} \end{matrix}$

${{\tilde{x}}_{i}}_{i = 1}^{N}$

$\begin{matrix} (5) & Σ = U Λ U^{⊤} \end{matrix}$

${{\tilde{x}}_{i}}_{i = 1}^{N}$

$\begin{matrix} (6) & W = U \sqrt{Λ^{- 1}} \end{matrix}$

Numpy的参考代码为：
```
def compute_kernel_bias(vecs):
    """计算kernel和bias
    vecs.shape = [num_samples, embedding_size]，
    最后的变换：y = (x + bias).dot(kernel)
    """
    mu = vecs.mean(axis=0, keepdims=True)
    cov = np.cov(vecs.T)
    u, s, vh = np.linalg.svd(cov)
    W = np.dot(u, np.diag(1 / np.sqrt(s)))
    return W, -mu
```
可能会有人问答大语料怎么办的问题。首先，上述算法只需要知道全体句向量的均值向量 $μ \in R^{d}$

$\begin{matrix} (7) & μ_{n + 1} = \frac{n}{n + 1} μ_{n} + \frac{1}{n + 1} x_{n + 1} \end{matrix}$

${{\tilde{x}}_{i}}_{i = 1}^{N}$

$\begin{matrix} (8) & Σ_{n + 1} = \frac{n}{n + 1} (Σ_{n} + μ_{n}^{⊤} μ_{n}) + \frac{1}{n + 1} x_{n + 1}^{⊤} x_{n + 1} - μ_{n + 1}^{⊤} μ_{n + 1} \end{matrix}$

${{\tilde{x}}_{i}}_{i = 1}^{N}$

相比于BERT-flow #

现在，我们就可以测试一下上述BERT-whitening的效果了。为了跟BERT-flow对比，笔者用bert4keras在STS-B任务上进行了测试，参考脚本在：

Github链接：https://github.com/bojone/BERT-whitening

效果比较如下：

$\begin{array}{lc} STS-B \\ {BERT}_{base} -last2avg (论文结果) & 59.04 \\ {BERT}_{base} -flow (target, 论文结果) & 70.72 \\ {BERT}_{base} -last2avg (个人复现) & 59.04 \\ {BERT}_{base} -whitening (target, 个人实现) & 71.20 \\ {BERT}_{large} -last2avg (论文结果) & 59.56 \\ {BERT}_{large} -flow (target, 论文结果) & 72.26 \\ {BERT}_{large} -last2avg (个人复现) & 59.59 \\ {BERT}_{large} -whitening (target, 个人实现) & 71.98 \end{array}$

可以看到，简单的BERT-whitening确实能取得跟BERT-flow媲美的结果。除了STS-B之外，笔者的同事在中文业务数据内做了类似的比较，结果都表明BERT-flow带来的提升跟BERT-whitening是相近的，这表明，flow模型的引入可能没那么必要了，因为flow模型的层并非常见的层，它需要专门的实现，并且训练起来也有一定的工作量，而BERT-whitening的实现很简单，就一个线性变换，可以轻松套到任意的句向量模型中。（当然，非要辩的话，也可以说whitening是用线性变换实现的flow模型...）

注：这里顺便补充一句，BERT-flow论文里边说的last2avg，本来含义是最后两层输出的平均向量，但它的代码实际上是“第一层+最后一层”输出的平均向量，相关讨论参考ISSUE。

降维效果还能更好 #

现在我们知道BERT-whitening的变换矩阵 $W = U \sqrt{Λ^{- 1}}$

前面说了， $U$

事实上，SVD出来的对角矩阵 $Λ$
```
def compute_kernel_bias(vecs, n_components=256):
    """计算kernel和bias
    vecs.shape = [num_samples, embedding_size]，
    最后的变换：y = (x + bias).dot(kernel)
    """
    mu = vecs.mean(axis=0, keepdims=True)
    cov = np.cov(vecs.T)
    u, s, vh = np.linalg.svd(cov)
    W = np.dot(u, np.diag(1 / np.sqrt(s)))
    return W[:, :n_components], -mu
```
效果如下：

$\begin{array}{lc} STS-B \\ {BERT}_{base} -last2avg (论文结果) & 59.04 \\ {BERT}_{base} -flow (target, 论文结果) & 70.72 \\ {BERT}_{base} -last2avg (个人复现) & 59.04 \\ {BERT}_{base} -whitening (target, 个人实现) & 71.20 \\ {BERT}_{base} -whitening-256 (target, 个人实现) & 71.42 \\ {BERT}_{large} -last2avg (论文结果) & 59.56 \\ {BERT}_{large} -flow (target, 论文结果) & 72.26 \\ {BERT}_{large} -last2avg (个人复现) & 59.59 \\ {BERT}_{large} -whitening (target, 个人实现) & 71.98 \\ {BERT}_{large} -whitening-384 (target, 个人实现) & 72.66 \end{array}$

从上表可以看出，我们将base版本的768维只保留前256维，那么效果还有所提升，并且由于降维了，向量检索速度肯定也能大大加快；类似地，将large版的1024维只保留前384维，那么降维的同时也提升了效果。这个结果表明，无监督训练出来的句向量其实是“通用型”的，对于特定领域内的应用，里边有很多特征是冗余的，剔除这些冗余特征，往往能达到提速又提效的效果。

相比之下，flow模型是可逆的、不降维的，这在某些场景下是好处，但在不少场景下也是缺点，因为它无法剔除冗余维度，限制了性能，比如GAN的研究表明，通过一个256维的高斯向量就可以随机生成 $1024 \times 1024$

（注：后续实验结果，请看《无监督语义相似度哪家强？我们做了个比较全面的评测》。）

所以最终结论就是 #

所以，目前的结果就是：笔者的若干实验表明，通过简单的线性变换（BERT-whitening）操作，效果基本上能媲美BERT-flow模型，这表明往句向量模型里边引入flow模型可能并非那么关键，它对分布的校正可能仅仅是浅层的，而通过线性变换直接校正句向量的协方差矩阵就能达到相近的效果。同时，BERT-whitening还支持降维操作，能达到提速又提效的效果。

转：https://kexue.fm/archives/8069
相关阅读:
转：Windows Phone 7 设计简介
 Windows Phone开发（15）：资源
 Windows Phone开发（16）：样式和控件模板
 转： kali msfvenom生成木马
 转：Uncovering Drupalgeddon 2（cve-2018-7600）漏洞深度解析(附漏洞利用代码地址)
转：XSS知识大总结
 转：perl源码审计
 perl相关知识
 python引入模块时import与from ... import的区别
 转：Exploiting Windows 10 in a Local Network with WPAD/PAC and JScript
原文地址：https://www.cnblogs.com/zhangxianrong/p/15919228.html

NLP（四十四）：BERTflow

余弦相似度的假设 #

flow模型的碎碎念 #

标准化协方差矩阵 #

相比于BERT-flow #

降维效果还能更好 #

所以最终结论就是 #