【由于本人英语知识匮乏,初涉NLP,对Bio更是一无说知,因此文章中许多英文不知如何翻译较为得当,故本文不作正式翻译,仅供参考,更多详细信息请看英文原版。】
原文:http://acl.ldc.upenn.edu/E/E99/E99-1043.pdf
E99
题目:GENIA项目:关于基因组科研论文的基于语料库的知识获取和信息抽取
作者:NC,HSP,NO,YT,CN,TO,TS,HI,KI,JT
摘要:我们呈现了GENIA项目(为了从期刊论文以及摘要中自动获取生物医学信息)的一个outline。GENIA在网上可以搜索到,它是为了辅助信息抽取、信息检索、信息可视化以及帮助科研人员缓解科研信息过剩而设计的。诸如MEDLINE这种海量存储在线论文的数据库是发展语言工程方法和开发语言工程工具自然环境,也是语言工程在网络中展现关键角色地位的机会。
- 简介
在绘制人类基因图谱项目和Genome信息抽取项目全局工作的上下文环境中,GENIA项目。目标就是通过从诸如MEDLINE的专业领域中的生物学论文以及摘要中进行自动抽取信息以支持这些研究。这些大量存储的关于genome研究成果的科研论文就是发展语言工程工具和方法的自然环境。
这个项目目标是减少这种因信息过剩导致科研人员从类似MEDLINE文献集合中获取信息困难的问题。项目的中心问题围绕信息抽取以及信息检索两个方面。下边就是一些概要和集成他们的接口的介绍。
1.1 专业术语识别与分类
通过和该领域的专家交流,我们定义了一些有用实体的类别,比如各种蛋白质和基因的名字。这些类别成员的可靠识别及获取使我们的一个关键目标,这样专业术语数据库就可以被自动扩展。我们不可低估了这个任务的难度,因为这个领域的命名规则非常松散。
在我们最初的实验中,我们用了ENGCDshallow论文来识别名词短语并根据于他们共同出现的动词集合对它们进行蛋白质分类。由于词组的名称前后不一致引起的困难,我们决定使用更多依据资源来对术语进行分类。
目前我们已经扩展了我们的方法并且正在探索两个实体名称识别模型。第一个是基于词语聚类分析统计模型,这个模型在Swissprot和其他数据库的已经分好类的词语列表上进行了训练。我们用短语列表(用来把一个术语按照它最终名词属性(在头部最终位置)进行分类)对它进行补充。这个模型在我们第一个判别80篇有专业标签的MEDLINE摘要的识别短语实验中获得了F级,69.35 for 1372源实体,53.00 for 3280 蛋白质,66.67 for 56 RNA ,45.20 for 566 DNA。我们希望通过增加更好的训练词语列表来提高识别率。第二个模型基于决策树的,由一个词语列表进行补充,这个词语列表是由Swissprot和其他数据库派生出的类别组成的。在这组实验中,术语短语没有被提前分好类。这个模型在由60篇MEDLINE摘要构成的语料库以及20篇论文构成的语料库中进行了实验,获得了F成绩,55.38 for 356资源,66.58 for 808 蛋白质实体。RNA和DNA的实体数量过少,忽略不计。
作为全局项目的一部分,我们建立了一个用来训练、测试我们工具的被专业标记的MEDLINE摘要及论文语料库。关于这个语料库的其他标注计划(markup scheme),我们还在与一些生物学家共同开发中,这个scheme是基于SGML实现的概念domain模型。这个语料库将被一组独立的生物学家交叉验证。
1.2信息抽取
我们用信息抽取的方法来从MEDLINE摘要和全文中自动抽取已命名的实体属性、事件以及其他(领域特有)概念。这项工作的一部分就是建设并维护一个该领域的本体,这部分工作由我们正在开发的一个叫做OEMS的系统执行。OEMS从这个领域本体中抽取三类信息,叫做typing 信息,来自摘要:taxonomy(一个子分类结构),mereology(一个部分-整体结构),synonymy(一个同类结构)。最终,我们希望能够从全文中识别并抽取领域特有事实,例如蛋白-蛋白结合信息,以此在细胞信号的形态示意图方面帮助生物化学家,这方面对他们工作来说是必须的。
1.3词典建设
我们工作的一个更长远的目标是自动建立一个MEDLINE摘要以及有医药领域的属于组成的领域字典的词典,目的就是扩大诸如MEDLINE这种数据库中的信息检索。我们现在正在使用Med测试集on SMART。最终我们计划建立一个针对基因组领域的专有词典,但是这个目前要依赖于创建一个合适的测试集合。
1.4接口
这个项目的一个关键方面就是在领域专家以及信息抽取程序之间提供一个简单的接口。我们的接口提供了一个信息抽取程序的链接,也提供了可以点击的链接在单一环境下的WWW公共数据库中查找相关信息。例如,一个用户可以使用实体名成检索程序把一篇文章中的蛋白质高亮显示,然后搜索分子结构表。
2总结
本文对GENIA项目进行了简单的介绍。这个项目将会再运行2年并计划提供一个关于语言工程可以被应用于基因组领域的在线证明