• NEWBE CRALWER 产品需求文档


    1、产品概述

    本产品是学霸软件系统的爬虫部分,由NEWBE团队负责。主要任务是从网上爬取出相关数据后提供给C705组使用。

    2、产品的发展经历

    2.1 产品的发展经历

    本产品从2014.10.29开始迭代,经历两轮迭代,发布了ALPHA和BETA版本后。最终基本圆满的满足了C705的需求,并顺利地与学霸下一组成功对接。

    2.2 产品的版本

    在ALPHA版本阶段,我们的产品方向略有偏移,重点没有放在学霸系统整个的体系下,而是将爬虫作为一个单独的程序而确立产品定位,因此设计了大量UI,URL热度排序,等比较高级,但不实用的功能。

      在BETA版本阶段,我们与C705团队进行了充分沟通,明确了我们程序的最重要需求,同时,分析产品定位并找到了关于稳定性、高效性的需求。将产品放回到学霸系统整个的模块下,产品定位更加明确,产品做的也更加实用高效。

    3、产品研发规划

    3.1 需求列表

    1、重要度:重要            需求类型:改进

     需求描述:     限制爬取功能(quiz/pdf/doc/ppt) 

    2、重要度:重要    需求类型:BUG修改

    需求描述:      无法爬取数量巨大的网页,会因为奇怪的bug陷入死锁,解决相应的bug(bug数量可能比较多..多人参与解决..) 

    3、重要度:重要    需求类型:新增

    需求描述:      爬取ppt、doc功能

    4、重要度:次重要      需求类型:新增

    需求描述:      各个方法写好规格

    5、重要度:次重要   需求类型:改进

    需求描述:      quiz页面的过滤功能(C705组需求:stackoverflow、百度知道、知乎、搜狗问问、博问、德问)
    6、重要度:一般    需求类型:新增

    需求描述:存储文件名换成ID号(上版把过长的文件名过滤掉了,需要修改)
    7、重要度:一般    需求类型:BUG修改

    重复网址会存成两个id不同的数据项.需要修改

    8、重要度:一般    需求类型:改进 

    无关页面过滤算法的优化

    9、重要度:较不重要    需求类型:BUG修改

    软件开始界面的的newbe logo消失,需要修改

    10重要度:重要              需求类型:新增

    新增PDF PPT DOC按钮,QUIZ选择列表,可以有针对性的爬取

    11重要度:一般      需求类型:改进

    饼状图由三种改为可以显示五种。

    3.2需求分析

    我们的目标用户是C705组,爬取内容供他们使用。因此我们的需求来源于他们对我们内容的要求。因此,在与他们进行多次协商后,我们明确了我们的主要目标任务:

    1 在原来爬取类型的基础上,新增可以爬取QUIZ页面的功能。

    2 新增PDF PPT DOC按钮,可以针对性的爬取特定内容。

    同时,在和他们协商的功能之外,我们知道作为一款长时间运行的网站,爬取软件的稳定程度、效率高低、资源占用多少都非常重要,因此我们修改了诸多BUG,优化了N多算法,以满足稳定、高效的需求。

    3.3开发安排

    每一天的研发规划都已经记录到DAILY SCRUM中,大家可以去每天的日志中看。

    5、产品最终界面

    ALPHA版本:

    BETA版本:

    目前数据库中数据数目:约40w

  • 相关阅读:
    ubuntu查看软件安装位置
    es search
    es
    Elasticsearch 之python
    用户登陆注册,修改密码
    Django基础—— 9.ORM机制讲解
    Django基础—— 8.数据库配置
    Django基础—— 7.View函数(2)
    Django基础—— 7.View函数(1)
    Django基础—— 6、URL分发器
  • 原文地址:https://www.cnblogs.com/newbe/p/4222463.html
Copyright © 2020-2023  润新知