目录
- NLP基本流程
- NLP应用场景
- NLP技术流
一、自然语言处理的基本流程
- 分词
- 命名实体识别,主要有人名,地名,机构名等
- 词性标注,对分词后的词语进行语义标注
- 句法分析,主要是要构建语法树,标注单词,短语,句子的语法
- 语义分析,包括两部分:语义消歧,主要是针对多义词在文中的意思;语义角色标注,主要是要标出一个句子中主谓宾状语等。语义角色标注过于依赖句法分析的准确性,不过目前自动句法分析的准确性并不是特别高,因此语义角色标注的效果也一般。
- 篇章分析,在一篇文章中段落的顺序、句子的顺序都是很重要的,按照正确的表达序列排序才能构成完整的篇章。在篇章分析中可以划分的结构有篇章-段落-句子-词、篇章-句子-词、篇章-词等。
上面的六步只不过是自然语言处理中的中间步骤,并不是自然语言处理的最终目标
二、自然语言处理的应用场景
- 序列标注:比如中文分词,词性标注,命名实体识别,语义角色标注等
- 分类任务:文本分类和情感计算
- 句子关系判断:QA,Entailment/自然语言推理 信息检索 人机对话系统,它的特点是给定两个句子,模型判断出两个句子是否具备某种语义关系
- 生成式任务:比如机器翻译,文本摘要,写诗造句,看图说话等都属于这一类。它的特点是输入文本内容后,需要自主生成另外一段文字。
------------------------------以下详细介绍-------------------------------------
2.1 序列标注
序列标注问题包括自然语言处理中的分词,词性标注(POS tagging)、命名实体识别,关键词抽取,词义角色标注等等,具体可参考: https://blog.csdn.net/qq_40136685/article/details/90634006
2.2 分类任务
文本分类和情感计算
- 垃圾邮件分类:2分类问题,判断邮件是否为垃圾邮件
- 情感分析:2分类问题:判断文本情感是积极还是消极;多分类问题:判断文本情感属于{非常消极,消极,中立,积极,非常积极}中的哪一类。
- 新闻主题分类:判断一段新闻属于哪个类别,如财经、体育、娱乐等。根据类别标签的数量,可以是2分类也可以是多分类。
- 自动问答系统中的问句分类
- 社区问答系统中的问题分类:多标签多分类(对一段文本进行多分类,该文本可能有多个标签),如知乎看山杯
- 让AI做法官:基于案件事实描述文本的罚金等级分类(多分类)和法条分类(多标签多分类)
- 判断新闻是否为机器人所写:2分类
2.3 句子关系判断
QA,Entailment/自然语言推理 信息检索 人机对话系统
2.4 生成式任务
机器翻译,语音翻译、文本摘要与信息抽取
三、NLP技术流
TFIDF & BM25,用于进行文档表示的扛鼎之作,所有信息检索和搜索引擎的基础。
NGram,统计语言模型的标准算法,增加了多尺度的探索。
HMM,序列标注、语言模型曾经的主流算法。
Topic Models,包括LSA、pLSA、LDA等隐含主题模型,可以说是2000-2010间火了十多年的范式。
IBM Model,1990年代统计机器翻译时代的扛鼎之作,利用大规模对齐文本学习词对齐模型,算法也很巧妙,即使现在仍值得拜读。
CRF,条件随机场是解决序列标注的主流模型,在中文分词、词性标注、实体识别等任务直到现在仍然是标准模型。
word2vec,包括Skipgram和CBOW,2013年引爆NLP深度学习浪潮的里程碑算法,引领2013-2016年的词表示学习研究热潮。我还特别喜欢基于word2vec,哈工大师生做的那篇ACL 2014用于上下位关系抽取的扩展工作,非常NLP的研究方法,值得推荐。
RNN & LSTM,神经网络语言模型的代表作,将语言马尔科夫性与神经网络有机融合,影响巨大。
Attention,神经网络用于自然语言处理不可或缺的重要机制,解决长程依赖的灵丹妙药。基于此延展Transformer和其应用:GPT、BERT,和Transformer
BERT,简单粗暴有效,2018年引起自然语言处理预训练语言模型浪潮。
--来自知乎的回答,觉得有一定道理,故粘贴过来了。后续也基于这些进行学习。