BERT学习笔记

BERT学习笔记
bert 论文阅读
- 一、模型结构
  - 是一个多层的双向transformer encoder
  - 注意这里tranformer模型输入的是embedding后的词向量
- 二、输入编码
  - 可以编码一个单句或一串单句
  - Token Embedding
    
    每个词被表示成一个768维的向量 CLS表示开始符号 SEP表示结束符号
    
    这里使用WordPiece tokenization的原因是这种表示方法使Bert只需要存储很少的词汇，并且很少遇到未登陆词
  - Segment Embedding
    
    用于区分句子的表示比如哪些单词属于句子1 那些单词属于句子2
  - Position Embedding
    
    和transformer中的一样目的在于区分句子中词的位置关系
    
    I think, therefore I am
    
    第一个I和第二个I应该有不同的向量表示
    
    bert中的最大句子长度是512 所以Position Embedding layer 是一个size为（512，768）的lookup table
    
    不同句子同样的位置，位置编码是一样的
  - 联合表示
    
    很简单就是将三部分的represention对应的元素相加形成一个(1, n, 768)的表示
- 三、预训练任务（目标函数）
  - 论文不使用传统的从左到右或从右到左的语言模型来预训练BERT。相反，使用两个新的无监督预测任务对BERT进行预训练。
  - 任务1: Masked LM 遮蔽语言模型
    
    只计算mark位置的损失
  - 任务2：下一句预测
相关阅读:
基本运算符
 格式化输出
 Python与用户的交互
 数据类型
 变量
 正则表达式
 vuex方法
 vue的webpack打包步骤
 浮动问题
 媒体查询技术
原文地址：https://www.cnblogs.com/rise0111/p/11341730.html

bert 论文阅读

一、模型结构

二、输入编码

三、预训练任务（目标函数）