• Pipeline组Alpha版本发布说明


    Pipeline组Alpha版本发布说明

    项目名称

    Pipeline

    项目版本

    Alpha版本

    负责人

    北京航空航天大学计算机学院 ILoveSE

    联系方式

    http://www.cnblogs.com/ ILoveSE

    要求发布日期

    2013-11-20

     

    更新内容

    1.1      修复缺陷

    1)数据库重复输入

    2)中文分词算法改进

    3)Tf-idf关键词算法改进

    1.2   新增功能

    1)英文分词算法

    2)用户手动插入信息

    2  环境要求

    操作系统需求

    Windows操作系统

    运行环境需求

    数据库需求

    需配置数据库到Windows(或Windows   server)数据源中,数据库名为crawler


    3  安装说明

    直接解压安装,在PipelinePipelinein Debug文件夹中找到Pipeline.exe可以打开程序。

    4 使用说明

    UI组在制作提问与解答模块时需要用到我们放在服务器中的数据库。我们的数据库中的数据表共有四张。

    表名

    WebPage表

    WebPage_Tags表

    Tags表

    Sensitive_Words表

    作用

    存有每个网页的具体属性信息。

    网页号,标签号,还有每个网页对应标签的对应信息。

    具体每个标签的属性信息。

    是每个敏感词的属性信息。

    主要功能有输入用户自己的新信息,根据提供的网页分词和提取关键词还有对应的摘要。主要的几个操作界面有Rawdata:原始信息,Denoisingdata:降噪后信息,WordSegment:分词后结果,FinalData:关键词和对应摘要,Input New Content:用户自主输入信息。

    其他的操作都在按钮上面写的很清楚。

    5  已知缺陷和限制

    中文分词用朴素贝叶斯算法效果较差;

    关键词和对应的preview命中率较低;

    由于一些英文网页需要进行机器翻译,联网的速度较慢,限制了改进后的效果。

    6  发布地址

    该版本代码发布在服务器上,可自行下载试用。

                                                                                                                                                            ————edited by 杨军

  • 相关阅读:
    python列表[]中括号
    python元组()小括号
    python break continue跳过和跳出循环
    python FOR循环
    python while循环
    python if elif else判断语句
    python使用变量
    python -input用户输入
    pycharm模板
    港股收费
  • 原文地址:https://www.cnblogs.com/IloveSE/p/3444789.html
Copyright © 2020-2023  润新知