• 论文阅读(2)The Penn Discourse TreeBank 2.0.


    摘要

    1. 引言(Introduction)

    2. Annotation of Discourse Relations and their Arguments

    • 显示连接词

      • Arg1论元位置,范围跨度都大
    • 隐式连接词

      • 阅读上下文来推断
    • AltLex、EntRel、NoRel用于不能提供隐含连接词的情况

      • AltLex:用于案例 —— 插入一个隐含的连接词来表达一个 推断的关系,会导致了一个多余的关系被一些非连接表达词汇化(例7);

      • EntRel:用于案例 —— 句子之间 只能 感知到 基于实体的连贯关系的情况(例8);

      • NoRel:用于案例 —— 句子之间 没有 语篇关系或实体关系(例9)

    • 隐式连接词在段落中所有连续的句子对之间都有注释,但它们也在由分号(“;”)或冒号(“:”)分隔的完整子句之间进行句内注释。

    3. Sense Annotation

    • PDTB为显式连接词、隐式连接词和AltLex关系提供了Sense Annotation。

    • 与动词一样,语篇连接词可以有多种意义,至少取决于语境和论据的内容。

    • 例如,since似乎有三种sense,一种纯粹是“暂时的”(10),另一种纯粹的“因果”(11),第三种既有“因果”又有“暂时”(12)。

    • 当注释者识别了多个同声传译,会提供多个 sense tags。由于论元也可能以没有对应标记的方式相关,所以sense annotation至少指定了一个但不一定是所有论元之间的语义关系。

    • 按层次组织的,三个level:class、type、subtype

    • Top level(class)有四种类型:

      • “时态”(Temporal)

      • “偶然性”(Contingency):两种类型---“原因”(直接因果),“条件”(将假设情景与可能的后果联系起来)

      • “比较性”(Comparison)

      • “拓展性”(Expandsion)

    4. Attribution Annotation

    • (14):归因于 writer

    • (15):归因于 Bill xxxx

    • (16):Arg1归因于writer,Arg2归因于purchasing agents

    • 归因是连接词句法和语篇论点不匹配的主要原因。

    • 也就是说,简单地把例(16)中while的句法论点作为其语篇论据,就会产生错误的语义解释,除非在描述中不考虑归因(attribution)。

    • 因此,识别语篇关系中的 attibution 是 获得正确解释语篇关系的一项重要任务

    • 在PDTB中,每个语篇关系 及其 两个论元 都被标注为归因

    • 标注方案:归因短语 相对于的 文本跨度

    • Attribution 被注释为显式连接词、隐式连接词和Altex关系,而不是Entrel和Norel,

    4.1 Source

    • “Source”特征 区分了不同类型的 agents

      • (a)the writer of the text("Wr")

      • (b)some specific agent introduced in the text(“Ot” for other)

      • (c)通过文本中的非特定引用指示的任意(“Arb”)个人

    • 分布还表明,有大量的情况下,关系的组成部分被归因于不同的来源

    4.2 Type

    • Type特征通过将抽象对象区分为四个子类型:

      • 断言命题(assertion propositions)

      • 信念命题(belif propositions)

      • 事实和事件性(facts 和 eventualities),对主体与抽象对象之间关系的性质进行了编码。

    4.3 Scopal polarity

    • 被标注在关系和它们的论据上,以识别 当 verbs of attribution 在表层句法上被否定时的情况 (e.g., didn’t say, don’t think) ,词汇上 (e.g.,denied),但当 negation事实上颠倒了归因关系或论证内容的极性时

    • 当一个更高属性的表面否定占据了很小的范围时,在关系或论元上标记“Neg”

    • scopal极性被标记为arg2的“neg”,在没有否定解释的情况下,使用“Null”作为默认。

    4.4 Determinacy(确定性)

    • 捕捉到这样一个事实,即在特定的上下文中,例如在否定、条件或无限范围内,关系或论元的归属本身可以被取消。

    • 这种 不确定性 由值“Indet”表示,而 确定的属性 则简单地用默认的“Null”标记。

    • 我们在第一节中注意到,归因不被视为语篇关系,因为归因相关的对象与语篇关系相关的对象不一样:

    • 前者涉及 agents 和 抽象对象,后者涉及两个抽象对象。

    5. PDTB1.0 和 PDTB2.0区别

    • 整个语料库中隐含关系的注释。在PDTB-1.0中,只为WSJ的3个部分注释了隐式关系。

    • 感官注释方案的修订

    • 所有显式连接词、隐式连接词和AltLex关系的 senses annotation

    • 属性注释(Attribution)方案的修订

  • 相关阅读:
    PHP计算近1年的所有月份
    mysql的索引和锁
    深度解析 https 协议
    linux 常用命令大全
    为什么Python3.6字典变得有序了?
    oddo
    RESTful接口开发规范
    python中的 __inti__ 和 __new__ 方法的区别
    十大经典算法 Python实现
    MongoDB journal 与 oplog,究竟谁先写入?--转载
  • 原文地址:https://www.cnblogs.com/douzujun/p/13683872.html
Copyright © 2020-2023  润新知