RoBERTa - 润新知

RoBERTa
2019-10-19 21:46:18

问题描述：谈谈对RoBERTa的理解。

问题求解：

在XLNet全面超越Bert后没多久，Facebook提出了RoBERTa（a Robustly Optimized BERT Pretraining Approach）。再度在多个任务上达到SOTA。那么它到底改进了什么？

它在模型层面没有改变Google的Bert，改变的只是预训练的方法。
- 去掉下一句预测(NSP)任务。
- 动态掩码。BERT 依赖随机掩码和预测 token。原版的 BERT 实现在数据预处理期间执行一次掩码，得到一个静态掩码。而 RoBERTa 使用了动态掩码：每次向模型输入一个序列时都会生成新的掩码模式。这样，在大量数据不断输入的过程中，模型会逐渐适应不同的掩码策略，学习不同的语言表征。
- 更大的batch size。原本的BERT base 的batch size是256，训练1M个steps。RoBERTa的batch size为8k。为什么要用更大的batch size呢？（除了因为他们有钱玩得起外）作者借鉴了在机器翻译中，用更大的batch size配合更大学习率能提升模型优化速率和模型性能的现象，并且也用实验证明了确实Bert还能用更大的batch size。
- 更多的数据，更长时间的训练。借鉴XLNet用了比Bert多10倍的数据，RoBERTa也用了更多的数据。性能确实再次彪升。当然，也需要配合更长时间的训练。
相关阅读:
NFS服务
 DNS服务
 git使用笔记（七）版本回退和撤销
 git使用笔记（六）github
git使用笔记（五）打标签
 git使用笔记（四）远程操作
 git使用笔记（三）文件忽略
 git使用笔记（二）分支与合并
 git使用笔记（一）入门
 GDB使用小记
原文地址：https://www.cnblogs.com/hyserendipity/p/11705903.html

热门文章
socket
python网络编程初识
 python "re" 模块
 正则表达式
 python序列化
 时间格式大全
 python栈
 python日志1
python加密（MD5）
Samba服务