• Atitit 文档资料的摘要与压缩技术总结abstract tech v4 目录 1. 概念包含了原文本中的重要信息,其长度不超过或远少于原文本的一半” 1 2. 1. 摘要的作用 应用场景 1 2


    Atitit 文档资料的摘要与压缩技术总结abstract tech v4

     

    目录

    1. 概念包含了原文本中的重要信息,其长度不超过或远少于原文本的一半” 1

    2. 1. 摘要的作用 应用场景 1

    2.1. 如自动报告生成、新闻标题生成、搜索结果预览等。此外,自动文本摘要也可以为下游任务提供支持。 2

    2.2. .书写摘要的基本规范和原则 2

    3. 三大层次 纯文本内容摘要  目录 标题摘要 2

    3.1. 格式转换为txt 摘要 3

    3.2. 目录提取 3

    3.3. 标题摘要 3

    3.4. Keyword提取 3

    4. 摘要就是整篇文章和浓缩预览,四个要素对象、方法、结果、结论四要素 3

    5. 主流的文本摘要方式抽取式(extractive),另一种是生成式(abstractive)。 4

    5.1. Keyword 散列化摘要 5

    6. Code 摘要方法列表 5

    7. 其他关联技术 5

    7.1. 分词 5

    7.2. Stopword体系 5

     

    1. 概念包含了原文本中的重要信息,其长度不超过或远少于原文本的一半”

    根据Radev的定义[3],摘要是“一段从一份或多份文本中提取出来的文字,它包含了原文本中的重要信息,其长度不超过或远少于原文本的一半”。自动文本摘要旨在通过机器自动输出简洁、流畅、保留关键信息的摘要。

    1.  1. 摘要的作用 应用场景

    摘要也就是内容提要,是文章中不可缺少的一部分。文章摘要是一篇具有独立性的短文,有其特别的地方。它是建立在对文章进行总结的基础之上,用简单、明确、易懂、精辟的语言对全文内容加以概括,留主干去枝叶,提取文章的主要信息。作者的观点、文章的主要内容、研究成果、独到的见解,这些都应该在摘要中体现出来。好的摘要便于索引与查找,易于收录到大型资料库中并为他人提供信息。因此摘要在资料交流方面承担着至关重要的作用。
    2

     

    自动文本摘要有非常多的应用场景,

      1. 如自动报告生成、新闻标题生成、搜索结果预览等。此外,自动文本摘要也可以为下游任务提供支持。
      2. .书写摘要的基本规范和原则


    (1)文章摘要分为中文摘要和外文(一般为英文)摘要。摘要在篇幅方面的限定,不同的学校和机构有不同的要求,通常中文摘要不超过300字,英文摘要不超过250个实词,中英文摘要应一致。毕业文章摘要可适当增加篇幅。
    (2)摘要是完整的短文,具有独立性,可以单独使用。即使不看文章全文的内容,仍然可以理解文章的主要内容、作者的新观点和想法、课题所要实现的目的、采取的方法、研究的结果与结论。
    (3)叙述完整,突出逻辑性,短文结构要合理。
    (4)要求文字简明扼要,不容赘言,提取重要内容,不含前言、背景等细节部分,去掉旧结论、原始数据,不加评论和注释。采用直接表述的方法,删除不必要的文学修饰。摘要中不应包括作者将来的计划以及与此课题无关的内容,做到用最少的文字提供最大的信息量。
    (5)摘要中不使用特殊字符,也不使用图表和化学结构式,以及由特殊字符组成的数学表达式,不列举例证。

    1. 三大层次 纯文本内容摘要  目录 标题摘要

     

     

      1. 格式转换为txt 摘要
      2. 目录提取
      3. 标题摘要
      4. Keyword提取
    1. 摘要就是整篇文章和浓缩预览,四个要素对象、方法、结果、结论四要素
    • 它被排放在文章的首要位置。
    • 摘要主要要包括文章的四个要素,即:
    1. 题目
    2. 目的
    3. 方法
    4. 结果
    5. 结论
    6. 关键字

    反映文章的实质性内容,展示文章内容足够的信息,体现文章的创新性,展现文章的重要梗概,一般由具体研究的对象、方法、结果、结论四要素组成。

    对象——是文章研究、研制、调查等所涉及的具体的主题范围,体现文章的研究内容、要解决的主要问题,是问题的提出,研究方向的确立与目标的定位。

    方法——是文章对研究对象进行研究的过程中所运用的原理、理论、条件、材料、工艺、结构、手段、程序,是完成研究对象的必要手段。

    结果——是作者运用研究方法对研究对象进行实验、研究所得到的结果、效果、数据,被确定的关系等,是进行科研所得的成果。

    结论——是作者对结果的分析、研究、比较、评价、应用、提出的问题等,是结果的总结,

    发布于 2016-12-20



     

     

    1. 主流的文本摘要方式抽取式(extractive),另一种是生成式(abstractive)。

     

    目前主流的文本摘要自动生成有两种方式,一种是抽取式(extractive),另一种是生成式(abstractive)。

    抽取式顾名思义,就是按照一定权重,从原文中寻找跟中心思想最接近的一条或几条句子。而生成式是计算机通读原文,在理解整篇文章意思的基础上,重新生成概要。

    抽取式摘要目前已经相对成熟,但抽取质量及内容流畅度均差强人意。伴随着深度学习的研究,生成式摘要对质量和流畅度都有很大的提升,但目前也涉及到原文本长度过长、抽取内容不佳等问题的限制。



    文本摘要的发展概况

    抽取式摘要是一种比较成熟的方案,其中Text rank排序算法以其简洁、高效的特点被工业界广泛运用。大体思想就是先去除文章中的一些停用词,之后对句子的相似度进行度量,计算每一句相对另一句的相似度得分,迭代传播,直到误差小于0.0001,再对上述方法得到的关键语句进行排序,即可获得摘要。抽取式摘要主要考虑单词词频,并没有过多的语义信息,像“猪八戒”、“孙悟空”这样的词汇都会被独立对待,无法建立文本段落中完整的语义信息。



    入门_ 文本摘要自动生成技术的前世今生 - 简书.html

     

      1. Keyword 散列化摘要

    分词然后去重

     

    1. Code 摘要方法列表
    2. 其他关联技术
      1. 分词
      2. Stopword体系

    干货|当深度学习遇见自动文本摘要,seq2seq+attention - CSDN博客.html

  • 相关阅读:
    sky A800s手机恢复出厂设置操作
    SlimDx绘制点图元的问题
    自定义Token的CAS登录
    未来谁才是移动互联网的入口?
    [Oracle]Sqlplus连接成功,但pl/sql连接不成功,提示“ora-12145:无法解析指定的连接标识符”
    memcached分布式内存系统
    Android下结束进程的方法
    博客搬家啦~
    NOIp2013火柴排队
    NOIp2014 T2联合权值
  • 原文地址:https://www.cnblogs.com/attilax/p/15197485.html
Copyright © 2020-2023  润新知