Bert源码解读

一、速读Bert

Bert预训练部分是在做自注意力。

分类器微调部分就是一层神经网络。

分离矩阵得到起始值和终止值得概率矩阵。

用run_classifier.py，50万样本量，微调阶段训练时间约为半小时。

1.官网源码中给出的是TPU estimator接口，需要改成普通estimator接口方案。

2.Out of Memory问题

调节两个参数 max_seq_length 和 train_batch_size ，分别是最长句子的长度和一次批处理的大小，观察 GPU显存的占用情况。

Bert的预训练模型部分可以部署。源码中的亮点有提供了图优化方法，包括的过程有：动态图计算--图冻结、剪枝和量化。还有zeromq进行异步并发请求，进行服务化部署。

Bert的泛化能力很强。我们可以加强学习。

较低成本实践Bert的方法：

第一步：有GPU，一般是28GB左右。

第二步：确定一个数据集和确定自己的训练任务。

第三步：修改代码，调参，验证效果。

雪儿言

相关阅读:
基于 IAR 修改工程名称
Baidu IoT Study
msp430f5438a Information Flash Seg Write -- Chapter
MFC 编辑框内容更新方法以及滚动条设置
通过打开按钮打开文件和通过左键移动打开文件并计算crc
移动文件并将文件路径显示到编辑框内
Aritronix Virtual Device 运行
将一个char类型的数转换成曼切斯特数
数组中重复的数字
平衡二叉树

原文地址：https://www.cnblogs.com/weixq351/p/14810578.html