基于本体的WEB信息抽取系统 2012
整个系统包括文件采集及预处理、文本转换、知识抽取3个部分。
在信息抽取过程中需要一些外部资料,包括:①领域本体;②网站地图文件;③单词、短语、特殊字符词典和通用词典;④停用词、虚词、高频词词表;⑤分句规则;⑥词性集合及词性标注规则;⑦实体识别及标注规则;⑧知识抽取规则。
信息抽取用到的算法包括:①爬网算法;②文件预处理算法;③文件存储算法;④分词和词表查询算法;⑤停用词、虚词、高频词去除算法;⑥分句算法;⑦词性标注算法;⑧命名实体识别及标注算法;⑨知识抽取算法。
中文分词可使用工具,如中科院计算所汉语词法分析系统ICTCLAS、斯坦福大学的汉语分词系统stanford-parser等。但是,这些分词方法没有考虑特定主题及特定领域的概念,分词会出现一定的误差,本文提出一种基于本体解析信息进行分词及查询的算法,更能体现主题及领域特征。
中文分词及词表查询重要的是使用词典,为了以后处理统一,文档分词词典和查询分词词典应该统一。分词结果用空格分割开来。另外,在分词过程中还要考虑如何解决同义词的问题,本文提出两种解决方案:
(1)设置同义词表;
(2)利用通用词典,通过相似性计算得到最相近的词。
给出了算法:中文分词及词表查询,命名实体识别及标注。
领域概念术语提取中特征项自动抽取方法 2012
在文本预处理阶段,由于自然语言中的词汇是一个动态集合且词典分词存在分词速度慢等问题,目前大多数研究主要采用无词典分词。本文采用中国科学院计算技术研究研制的汉语词法分析系统ICTCLAS进行无词典分词及词性标注。由于无词典分词系统未能识别领域专业术语,往往把专业术语切分多个词汇,因此,我们需要把这些相邻且共现频率高的被切分的词汇重新合并成新词,基于此,本文结合ICTCLAS提出一种改进的无词典分词算法。当某些词汇紧密相邻出现的频率超过一定阀值时,便可认为这些词汇的合并后成为一个词条的可能性很大。
提出了新的特征提取公式s(ti)=TF.IDF(ti)+χ2(ti,c)+IG(ti)和基于位置权重的特征项选择方法,总权重值T (ti)计算方法T (ti)=s (ti)+w (ti)
pdf——text——区分摘要、正文、总结——分词——特征提取
信息抽取研究综述 2003
消息理解系列会议MUC
自动内容抽取ACE
近年研究:机器学习,应用
Hobbs曾提出一个信息抽取系统的通用体系结构,他将信息抽取系统抽象为“级联的转换器或模块集合,利用手工编制或自动获得的规则在每一步过滤掉不相关的信息,增加新的结构信息”。
Hobbs认为典型的信息抽取系统应当由依次相连的十个模块组成:
(1)文本分块:将输入文本分割为不同的部分——块。
(2)预处理:将得到的文本块转换为句子序列,每个句子由词汇项(词或特定类型短语)及相关的属性(如词类)组成。
(3)过滤:过滤掉不相关的句子。
(4)预分析:在词汇项序列中识别确定的小型结构,如名词短语、动词短语、并列结构等。
(5)分析:通过分析小型结构和词汇项的序列建立描述句子结构的完整分析树或分析树片段集合。
(6)片段组合:如果上一步没有得到完整的分析树,则需要将分析树片段集合或逻辑形式片段组合成整句的一棵分析树或其他逻辑表示形式。
(7)语义解释:从分析树或分析树片段集合生成语义结构、意义表示或其他逻辑形式。
(8)词汇消歧:消解上一模块中存在的歧义得到唯一的语义结构表示。
(9)共指消解或篇章处理:通过确定同一实体在文本不同部分中的不同描述将当前句的语义结构表示合并到先前的处理结果中。
(10)模板生成:由文本的语义结构表示生成最终的模板。
信息抽取中的关键技术
1、命名实体识别
命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别。
命名实体识别的方法主要分为:基于规则的方法和基于统计的方法。一般来说,基于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体语言、领域、文本格式,编制过程耗时且容易产生错误,并且需要富有经验的语言学家才能完成。相比而言,基于统计的方法利用人工标注的语料进行训练,标注语料时不需要广博的计算语言学知识,并且可以在较短时间内完成。因此,这类系统在移植到新的领域时可以不做或少做改动,只要利用新语料训练一遍即可。此外,基于统计的系统要移植到其他自然语言文本也相对容易一些。
2、句法分析
采用部分分析技术
FASTUS 系统中开始采用层级的有限状态自动机
3、篇章分析与推理
信息抽取系统除了要解决文本内的共指问题外,还需要解决文本间的(跨文本的)共指问题
4、知识获取
一般说来,都要有:一部词典,存放通用词汇以及领域词汇的静态属性信息; 一个抽取模式库,每个模式可以有附加的(语义)操作,模式库通常也划分为通用部分和领域(场景)专用部分;一个概念层次模型,通常是面向特定领域或场景的,是通用概念层次模型在局部的细化或泛化。
领域知识获取可以采用的策略通常有两种:手工+辅助工具(图形用户接口);自动、半自动+人工校对。
近几年有不少研究者采用自扩展(Bootstrapping)技术从未经标注的语料中学习抽取模式。
展望:开始重视解决以前曾被忽视的一些深层问题,如语义特征标注、共指消解、篇章分析等等。 影响信息抽取技术广泛应用的两个最主要的因素是:系统性能和系统可移植能力。