本博文介绍用Google pre-training的bert(Bidirectional Encoder Representational from Transformers)做中文NER(Name Entity Recognition)
第一步: git clone https://github.com/google-research/bert.git ,存放在 bert文件中
第二步: 下载BERT-Base Chinese模型, 存放在checkpoint文件中
相关文件结构如下:
BERT
|____ bert
|____NERdata
|____ BERT_NER.py
|____ checkpoint
|____ output
第三步:
run:
python BERT_NER.py --task_name="NER" --do_train=True --do_eval=True --do_predict=True --data_dir=NERdata --vocab_file=checkpoint/vocab.txt --bert_config_file=checkpoint/bert_config.json --init_checkpoint=checkpoint/bert_model.ckpt --max_seq_length=128 --train_batch_size=32 --learning_rate=2e-5 --num_train_epochs=3.0 --output_dir=./output/result_dir/
预测结果存放在result_dir目录中
以上所有参数都是基于bert官方默认参数
参考: