• 词法分析:命名实体识别


    词法分析(lexical analysis):将字符序列转换为单词(Token)序列的过程。

    分词,命名实体识别,词性标注 并称 汉语词法分析“三姐妹”。


    命名实体识别(Named Entity Recognition,NER)NER的过程,就是根据输入的句子,预测出其标注序列的过程。

    主要关注人名、地名和组织机构名这三类专有名词的识别方法。


    一般一共分为四大类:PER(人名),LOC(位置),ORG(组织)以及MISC,而且B表示开始,I表示中间,O表示单字词

    所谓实体识别,就是将你想要获取到的实体类型,从一句话里面挑出来的过程。

    小明 在 北京大学 的 燕园 看了 中国男篮 的一场比赛

    PER   ORG    LOC       ORG

    如上面的例子所示,句子“小明在北京大学的燕园看了中国男篮 的一场比赛”,通过NER模型,将“小明 ”以PER,“北京大学”以ORG,“燕园”以LOC,“中国男篮”以ORG为类别分别挑了出来。


    命名实体识别的数据标注方式

    NER是一种序列标注问题,因此他们的数据标注方式也遵照序列标注问题的方式,主要是BIO和BIOES两种。这里直接介绍BIOES,明白了BIOES,BIO也就掌握了。

    先列出来BIOES分别代表什么意思:

    B,即Begin,表示开始

    I,即Intermediate,表示中间

    E,即End,表示结尾

    S,即Single,表示单个字符

    O,即Other,表示其他,用于标记无关字符

    将“小明 在 北京大学 的 燕园 看了 中国男篮 的一场比赛”这句话,进行标注,结果就是:

    小明       在   北京大学           的     燕园      看了     中国男篮          的一场比赛

    [B-PER,E-PER,O, B-ORG,I-ORG,I-ORG,E-ORG,O,B-LOC,E-LOC,O,O,B-ORG,I-ORG,I-ORG,E-ORG,O,O,O,O]


    用到的算法:

    隐马尔科夫模型HMM,条件随机场(Conditional Random Field, CRF),长短期记忆网络(LSTM,Long Short-Term Memory)

    卷积神经网络(Convolutional Neural Networks, CNN),BERT(Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder)


     

    DEMO


    ref:

    https://www.cnblogs.com/nxf-rabbit75/archive/2019/04/18/10727769.html

    https://zhuanlan.zhihu.com/p/88544122

    https://www.jianshu.com/p/e473737356ea

  • 相关阅读:
    leetcode刷题 557~
    Unity正交相机智能包围物体(组)方案
    Embedded Browser(ZFBrowser)使用相关问题
    Unity性能优化
    sipp的使用
    Elment清除表单验证,防止报错小技巧
    git常用命令(干货)
    文本单词one-hot编码
    86. 分隔链表 链表
    5638. 吃苹果的最大数目 优先队列
  • 原文地址:https://www.cnblogs.com/hbuwyg/p/13193595.html
Copyright © 2020-2023  润新知