参考:https://www.cnblogs.com/robert-dlut/p/9824346.html
一、引入
Bert的模型,主要用两种用法,一种就是用来得到word embedding,但这里和word2vec得到的词表示不大一样,Bert得到的是一种context vector,它考虑了上下文;一种就是用来做Fine tuning,就是说我把训练好的Bert再拿去用的时候(比如说句子分类),这里的Bert的参数就可以作为我们的初始化参数,因为Bert得到的模型是相当于添加噪声来训练的模型,所以具有稳定性,用来作为初始化的参数可以帮助加速训练。
二、Bert的机制
《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。这篇论文把预训练语言表示方法分为了基于特征的方法(代表ELMo)和基于微调的方法(代表OpenAI GPT)。而目前这两种方法在预训练时都是使用单向的语言模型来学习语言表示。ELMO虽然是有从左到右的LSTM,以及从右到左的LSTM,但本质上还是单独分开考虑,而不是同时考虑双向。
如果了解了transformer,那么理解Bert就相对容易很多。因为Bert是在双向transformer上做的,
三、预训练的两个方法
Masked
预测下一个词