NlpirParser智能挖掘平台词性标注新算法

NlpirParser智能挖掘平台词性标注新算法

　　词性标注是自然语言浅层理解的一个重要环节，它可帮助系统自动判定词语所属的语法范畴，为进一步处理提供更高层面的支持。词性标注主要任务是消除词性兼类歧义，对于新信息检测来说，它的实际意义还在于：

　　(1)能够在很大程度上消除词义歧义。

　　(2)具有提高句子检索性能的潜力。词性标注可以帮助我们保留表征实际意义的名词、动词、形容词以及数词等实词，同时滤掉对检索不具实际影响的介词、代词、连词与冠词等。相对于纯粹从词形出发的过滤手段，词性更能有效消除噪声，在句子层面的检索上更具有潜力。

　　(3)提高区分信息新颖程度的能力：新信息本质上是寻找与以前不同的相关信息，词性标注结果有助于甄别同形异用的词汇，同时还可以帮助对词汇进行语法范畴的分类。

　　按照学习过程与标注过程的关系，词性标注方法分为监督型与非监督型两种。监督型标注器一般都采取事先已经标注好的语料库作为知识来源，从中学习抽取出标注过程需要的资源，比如标注词典、词语/词性频率、词性序列的概率以及规则集合;非监督词性标注模型不需要已经标注好的语料库，往往采取比较复杂的计算方法自动地进行词聚类，根据聚类结果来估算相关概率，或者推导出上下文规则。按照采用的技术方法来划分，还可将词性标注分为三类：规则方法、统计方法与神经网络方法。规则往往是语言学家手工整理，有的研究者还尝试自动地从语料库中自动地抽取规则，传统的规则方法往往根据上下文信息来标记未知词与歧义词的词性，比如规则“det - X - n = X/adj”说的就是“如果歧义词X在限定词与名词之间，则其词性为形容词”，因此，“a good boy”中的“good”为形容词;而“I'm telling you this for your good.”中的“good”为名词。

　　除上下文信息之外，构词规则也往往起到关键作用，比如字母大小写、前后缀、标点等。典型的系统有TAGGIT、Brill Tagger等。统计方法可以是任何一种结合了概率信息的标注模型，其目标是为句子中的词串选择一个最可能的词类序列。

　　灵玖软件NlpirParser智能挖掘平台词性标注能对汉语语言进行词性的自动标注，它能够真正理解中文，自动根据语言环境将词语诸如“建设”标注为“名词”或“动词”。灵玖采用条件随机场(Conditional Random Field,简称CRF)模型，一级词性标注准确率接近99%，具备准确率高、速度快、可适应性强等优势。

　　人名地名机构名识别能够自动挖掘出隐含在汉语中的人名、地名、机构名，所提炼出的词语不需要在词典库中事先存在，是对语言规律的深入理解和预测。采用条件随机场(Conditional Random Field,简称CRF)模型，识别准确率达到97%，速度达到10M/s，可在此基础上搭建各种多样化的统计和应用。
相关阅读:
mybatis：SQL拦截器
 eclipse：插件安装总结
 eclpse：安装explorer或eExplorer插件
 Spring Tools4
nginx+tomcat：动静分离+https
Tomcat：3DES解密时中文乱码
 wireshark如何抓取localhost包
 nginx：应用访问默认采用https
windows :config windows update … 一直处于假死状态
 EHCache：Eelment刷新后，timeToLiveSeconds失效了？
原文地址：https://www.cnblogs.com/ljrj/p/6929542.html