• 【NLP-00-1】NLP简述


    目录

    1. NLP基本流程
    2. NLP应用场景
    3. NLP技术流

    一、自然语言处理的基本流程

    1. 分词
    2. 命名实体识别,主要有人名,地名,机构名等
    3. 词性标注,对分词后的词语进行语义标注
    4. 句法分析,主要是要构建语法树,标注单词,短语,句子的语法
    5. 语义分析,包括两部分:语义消歧,主要是针对多义词在文中的意思;语义角色标注,主要是要标出一个句子中主谓宾状语等。语义角色标注过于依赖句法分析的准确性,不过目前自动句法分析的准确性并不是特别高,因此语义角色标注的效果也一般。
    6. 篇章分析,在一篇文章中段落的顺序、句子的顺序都是很重要的,按照正确的表达序列排序才能构成完整的篇章。在篇章分析中可以划分的结构有篇章-段落-句子-词、篇章-句子-词、篇章-词等。

    上面的六步只不过是自然语言处理中的中间步骤,并不是自然语言处理的最终目标

    二、自然语言处理的应用场景

    1. 序列标注:比如中文分词,词性标注,命名实体识别,语义角色标注等
    2. 分类任务:文本分类和情感计算
    3. 句子关系判断:QA,Entailment/自然语言推理 信息检索 人机对话系统,它的特点是给定两个句子,模型判断出两个句子是否具备某种语义关系
    4. 生成式任务:比如机器翻译,文本摘要,写诗造句,看图说话等都属于这一类。它的特点是输入文本内容后,需要自主生成另外一段文字。

    ------------------------------以下详细介绍-------------------------------------

    2.1 序列标注

    序列标注问题包括自然语言处理中的分词,词性标注(POS tagging)、命名实体识别,关键词抽取,词义角色标注等等,具体可参考: https://blog.csdn.net/qq_40136685/article/details/90634006

    2.2 分类任务

    文本分类和情感计算

    1. 垃圾邮件分类:2分类问题,判断邮件是否为垃圾邮件
    2. 情感分析:2分类问题:判断文本情感是积极还是消极;多分类问题:判断文本情感属于{非常消极,消极,中立,积极,非常积极}中的哪一类。
    3. 新闻主题分类:判断一段新闻属于哪个类别,如财经、体育、娱乐等。根据类别标签的数量,可以是2分类也可以是多分类。
    4. 自动问答系统中的问句分类
    5. 社区问答系统中的问题分类:多标签多分类(对一段文本进行多分类,该文本可能有多个标签),如知乎看山杯
    6. 让AI做法官:基于案件事实描述文本的罚金等级分类(多分类)和法条分类(多标签多分类)
    7. 判断新闻是否为机器人所写:2分类

    2.3 句子关系判断

    QAEntailment/自然语言推理 信息检索 人机对话系统

    2.4 生成式任务

    机器翻译,语音翻译、文本摘要与信息抽取

    三、NLP技术流

    TFIDF & BM25,用于进行文档表示的扛鼎之作,所有信息检索和搜索引擎的基础。

    NGram,统计语言模型的标准算法,增加了多尺度的探索。

    HMM,序列标注、语言模型曾经的主流算法。

    Topic Models,包括LSA、pLSA、LDA等隐含主题模型,可以说是2000-2010间火了十多年的范式。

    IBM Model,1990年代统计机器翻译时代的扛鼎之作,利用大规模对齐文本学习词对齐模型,算法也很巧妙,即使现在仍值得拜读。

    CRF,条件随机场是解决序列标注的主流模型,在中文分词、词性标注、实体识别等任务直到现在仍然是标准模型。

    word2vec,包括Skipgram和CBOW,2013年引爆NLP深度学习浪潮的里程碑算法,引领2013-2016年的词表示学习研究热潮。我还特别喜欢基于word2vec,哈工大师生做的那篇ACL 2014用于上下位关系抽取的扩展工作,非常NLP的研究方法,值得推荐。

    RNN & LSTM,神经网络语言模型的代表作,将语言马尔科夫性与神经网络有机融合,影响巨大。

    Attention,神经网络用于自然语言处理不可或缺的重要机制,解决长程依赖的灵丹妙药。基于此延展Transformer和其应用:GPTBERT,和Transformer

    BERT,简单粗暴有效,2018年引起自然语言处理预训练语言模型浪潮。

    --来自知乎的回答,觉得有一定道理,故粘贴过来了。后续也基于这些进行学习。

  • 相关阅读:
    mysql性能优化
    pymysql模块
    mysql数据表约束
    MySQL数据库
    IO模型
    8451
    8946531
    6783
    256213
    27822
  • 原文地址:https://www.cnblogs.com/yifanrensheng/p/12953171.html
Copyright © 2020-2023  润新知