• 多文档自动摘要算法实现(是否基于新闻文本还需要考虑)


    中文多文档自动摘要

    第一步,获取语料(数据库,子旋师兄)和测试集。(泽枫)

    第二步,使用mead(java,传懋)和sumbasic(python,柏棋)方法实现一下看看效果;(瑞滨)

    第三步,使用遗传算法和人工蜂群算法实现看效果怎样;(泽枫)

    第四步,在阵雨师兄暑假提取关键词任务的基础上,由关键词拓展为自动摘要,进而拓展为多文档自动摘要;(柏棋)

    第五步,在阵雨师兄暑假提取关键词特征的基础上,将其丢入sklearn分类器训练,同时实现learning to rank 的词排序方法,由关键词扩展为自动摘要,进而扩展为多文档自动摘要。(柏棋)

    第六步,将多文档自动摘要的各类算法分别迁移到英文和印尼语上,看效果如何。(泽枫,瑞滨,柏棋)

    第七步,实现可视化。(瑞滨)

    第八步,写paper。(泽枫,瑞滨,柏棋——负责写好各自算法的那部分论文,若妍负责整合编辑和排版,加上补充说明)

    SumBasic对每个非停用词赋予一个权重,句子的分值定义为其中词汇的平均权值。词汇的初始权重即为词频,在该词被选进摘要后,其权重随进入摘要的次数呈指数级下降,最终该算法应用于项目组的印尼舆情系统(已获得国家级的软件著作权)中;

  • 相关阅读:
    字符串提取数字/汉字/英文字母
    CHARINDEX,PATINDEX,STUFF函数
    raiserror的用法
    数据库备份与还原(通过命令)
    查询某个字段属于哪些表
    设备驱动基础1:设备模型之总线,驱动,设备
    设备模型之kobject,kset及其关系
    模拟电路创新设计
    cdev、udev
    PCB阻抗调节
  • 原文地址:https://www.cnblogs.com/flippedkiki/p/7590152.html
Copyright © 2020-2023  润新知