• 今天看论文


    # 实体关系抽取算法研究
    信息抽取的分支
    非结构化数据->(半)结构化数据
    评测:
    - 消息理解会议MUC
    - 自动内容抽取ACE
    - 文本会议分析TAC

    TAC-KBP-ESF:关于人物的25种关系属性,关于组织机构的16种关系属性
    半监督的关系抽取算法:bootstrapping算法

    创新点:
    1. 触发词特征 触发力
    2. 关系模式的表达方法:语义最短依存路径模式
    3. 相似性测度:自底向上的核函数测度
    4. 语义约束的bootstrapping模型的构建

    ## 第一章 绪论
    ### 1.1 课题研究背景以及意义
    #### 1.1.1 课题研究背景
    信息检索IR->信息抽取IE
    IE:通过nlp和ml等技术将 **非结构化数据->结构化数据**

    ** Entity Relation Extraction (ERE) 实体关系抽取** 是IE领域的重要分支:从自然语言文本中寻找并判定实体对(entity pair之间存在的特定关系。

    #### 1.1.2 课题研究的意义
    1. 知识库的自动构建
    WordNet Freebase
    2. 智能信息检索
    3. 对问答系统的技术支持
    ### 1.2 课题研究现状
    #### 1.2.1 面向结构化/非结构化文本的实体关系抽取
    - xml
    - 自由文本:语义分析 语义理解
    #### 1.2.2 基于规则/机器学习的实体关系抽取
    - 有监督:分类问题
    - 基于特征向量:关系->特征向量->训练分类器
    - 基于核函数:数据组织形式(实体关系)->用核函数表示关系之间的相似度
    - 半监督:基于部分标注的样本,实现对数据的关系的自动抽取。常用的有bootstrapping。(本文基于bootstrapping)
    - 无监督:刚刚起步
    ### 1.3 论文的主要工作和研究成果
    开放式 封闭式 的自动关系抽取:热点都是半监督的关系抽取
    重点是:基于bootstrapping的改进与融合,以及语义约束的bootstrapping
    ## 第二章 关系抽取算法
    IE的三大任务:命名实体识别,关系抽取,事件抽取
    ### 2.1 关系抽取基础
    #### 2.1.1 实体
    - 命名实体 Names Enity NE:USA China Gates
    - 代词实体 Pronoun Enity PE:we he
    - 名词性实体 Nominal Entity NoE:the man the city

    实体 ~= 命名实体
    命名实体识别:文本->标注额实体的文本
    常用的命名实体识别方法有:HMM,CMM,MEM,CRF

    #### 2.1.2 实体关系
    - 二元实体关系
    - 多元实体关系
    - 明确关系抽取:通常指的是这一种
    - 隐含关系抽取

    本文:二元明显关系抽取
    ### 2.2 关系抽取算法
    现在都用ml了
    #### 2.2.1 基于机器学习关系抽取算法一般流程
    学习-预测
    训练样本-测试样本
    1. 预处理 得到纯文本格式
    2. 文本分析 对文本的表示和特征的选取 对文本进行抽象 (命名实体识别,句法分析,依存分析) 本文用依存树的特征
    3. 关系表达 relation representation
    4. 关系抽取模型:分类模型

    #### 2.2.2 有监督的关系抽取算法
    1. 抽取文本中所有的entity pair
    2. 构造为候选关系实例
    3. ml方法训练分类模型
    ```分类系统:fR
    R代表关系
    输入:句子 (包含(e1,e2))的特征
    输出: 1:有关
    -1:无关
    ```
    ***
    - 基于特征向量的关系抽取算法
    句子->特征->特征向量->训练分类器

    句法特征:实体及其类型 实体间词序列及其长度 两个实体的句法树路径
    语义特征:两个实体的依存路径

    大多数使用:svm,最大熵模型,条件随机场
    **特征的选择是ml算法的关键问题**
    - 基于核函数的关系抽取算法
    用核函数计算关系实例之间的距离
    缺点:
    1. 需要人工标注样本
    2. 难以扩展到多元关系的抽取中
    3. 计算复杂度较高
    4. 会产生积累误差
    #### 2.2.3 无监督的关系抽取算法
    #### 2.2.4 半监督的关系抽取算法
    - bootstrapping
    也叫自扩展技术
    **种子**
    构建种子集->训练一个指导性分类器(SVM)->对未标注数据进行预测->找到最可靠的N个实例加入到种子集中->重复
    典型模型:snowball
    - 协同训练方法
    - 标注传播方法
    ### 2.3 关系抽取算法常用工具及数据集
    #### 2.3.1 关系抽取算法常用数据集
    - MUC关系抽取任务数据集
    - ACE关系抽取任务数据集
    - TAC-KBP数据集
    ESF任务:抽取关于PER的25种属性和ORG的16种属性
    #### 2.3.2 关系抽取算法常用工具
    文本分析工具:
    - Stanford CoreNLP:对自然语言文本的文本分析,词性还原,词性标注,命名实体标注,共指消解,句法分析,依存分析
    - 自然语言工具包 Natural Language Toolkit, NLTK:基于python,中文分词,词形还原,文本分类
    - OpenCCG:java
    ### 2.4 关系抽取算法评测标准
    IR和IE的三项基本评价指标:precision, recall, F measure
    - Precision
    - Recall
    - F measure:综合考虑Precision和Recall
    f=(2PR)/(P+R)
    **f接近1比较好**

  • 相关阅读:
    hwclock设置时间的调用过程是怎样的?
    git如何获取获取子模块的代码?
    hwclock和date源码分析
    linux内核是如何支持深度睡眠(deep sleep)方式的?
    mac下如何安装python3?
    linux内核中的__cpu_suspend是在哪里实现的呀?
    linux下安装oracle需要的配置
    linux实操常用命令总结
    linux下vi命令大全
    PHP100精华:很靠谱linux常用命令
  • 原文地址:https://www.cnblogs.com/theodoric008/p/7625651.html
Copyright © 2020-2023  润新知