【根据公开课的讲义整理】
自然语言处理如这个图中所表示的。作为一台计算机,要理解我们人类的语言。也就是understanding(NLU)。当计算机懂的我们的语言之后,变回给我们回应,像与我们对话一样,再生成我们可以接受的语言。generation(NLG)。
在自然语言处理方面,有哪些例子?
那么,在自然语言处理方面,有什么经典的例子呢?
比如:
机器翻译,现在市场上见到的谷歌翻译、有道翻译、金山翻译等等。
信息提取,在一大段文章当中,我们可以提出来对于我们有用的有结构的信息。比如在一段新闻当中,我们可以提取出来,例如在最近的四川泥石流的相关新闻中,提取出来发生事故的地点、时间、人数等信息,这些都为自动提取的。
生成一篇文章的摘要;
对话系统,在中国有咱们比较火热的小黄鸡,也算是对话系统当中的一个例子。
NLP(natural language processing)NLP领域有哪些基本的问题?
标注(Tagging)
如图中所示,一句话或者一段话要被我们标注,在每个词的后面标注相关的信息。例如N代表名词,V代表动词等等。当然,根据不同的需要,名词、动词等词性的分类是不一样的,根据需要来选择分类的粒度。
语法分析(Parsing)
例如,我们要把一句话,经过语法分析,找出他的结构。
例如,我们的输入input是Boeing is located in Seattle.
最终输出的语法树的结构应该为:
为什么NLP难呢?
歧义是NLP解决的难点之一。
当我们面临一句话的时候,很可能会产生很多的歧义。使同样一句话,变得有很多种意思。
在语音识别当中,也会出现歧义的问题。当语音中其中有一个词和其他的单词读音差不多的时候,有可能会识别成错误的词汇,从而导致听到的语音是错误的。
在语义(semantic)分析上,也会产生歧义。在英语中,一个单词往往有很多种意思,也就是一词多义,也会引起歧义。当一个英语句子有很多从句的时候,有可能不能正确分辨从句所对应的讨论的实体。