关键词是指能反映文本主题或者意思的词语,如论文中的Keyword字段。大多数人写文章的时候,不会像写论文的那样明确的指出文章的关键词是什么,关键词自动提取任务正是在这种背景下产生的。
目前,关键词自动提取方法分为两类:1)关键词分配,预先定义一个关键词词库,对于一篇文章,从词库中选取若干词语作为文章的关键词;2)关键词抽取,从文章的内容中抽取一些词语作为关键词。
NLPIR/ICTCLAS大数据搜索挖掘系统是采用人工智能于语义的统计语言模型技术自动提取关键字,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重。其工作原理是:
1)通过搜索互联网获得与文本相关的背景知识,对于给定的文本,利用一个图像算法检测文本中重要的句子,然后对获得的句子除去无意义的单词,并且把剩下的词返回原始形态,最后的结果就是与文本对应的查询,它包含了文本中的重要信息;
2)分析返回的互联网文章的结构,对于每一个返回的互联网文章,分析它的结构,提取导入链接,导出链接,种类和Infobox四种不同的结构信息,并且组成相应的集合.
3)对产生的单词集合特征进行机器学习,使用支持向量机算法对上面的特征进行机器学习,通过训练得到一个模型,并利用这个模型进行关键字的自动提取。
NLPIR/ICTCLAS大数据搜索挖掘系统能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。
NLPIR/ICTCLAS大数据搜索挖掘系统主要特色在于:
1、速度快:可以处理海量规模的网络文本数据,平均每小时处理至少50万篇文档;
2、处理精准:Top N的分析结果往往能反映出该篇文章的主干特征;
3、精准排序:关键词按照影响权重排序,可以输出权重值;
4、开放式接口:文章关键词提取组件作为NLPIR/ICTCLAS的一部分,采用灵活的开发接口,可以方便地融入到用户的业务系统中,可以支持各种操作系统,各类调用语言。
关键词可以被称为是整个搜索应用的基石。对用户和搜索引擎来说,关键词是双方互动的媒介,难以想像如果不使用关键词,我们如何来达到快捷有效的信息查询和提取目的。