• 敏捷冲刺五


    敏捷冲刺五


    Task1:团队TSP

    团队任务 预估时间 实际时间 完成日期
    搜索引擎相关内容了解 300 500 11-5
    数据库表的创建 180 150 11-5
    学院网站的爬取 210 460 11-10
    建立数据库索引 190 230 11-12
    代码测试 180 -- --
    前端页面的设计 240 -- --
    前后端的交互 300 -- --
    搜索引擎测试 260 -- --

    Task2:描述项目进展

    成员 任务安排 预期任务量/小时
    秦玉(组长) 与队员一起继续编写代码突破难关,补全之前的博客欠缺的地方 180
    陈晓菲 与队员一起继续编写代码突破难关,补全之前的博客欠缺的地方 180
    韩烨 前端模板的设计,补全之前的博客欠缺的地方 180
    姚雯婷 分析学院页面结构,并且编写爬虫代码,能爬取页面后开始写分词器 180
    罗佳 完成团队TSP表格,完成第五次冲刺博客园,配置完环境跟上进度 180
    高天 完成需要在课堂上展示的ppt,继续编写代码突破难关 180

    Task3:目前面临的困难

    • 最开始爬取到的页面只有十几条,肯定不对啊,然后仔细检查代码,查看学院网页的头,发现其实学院网页的头不是每个都是/info开头的,有些是content,所以我们删去了/info
                if url.startswith("http://cec.jmu.edu.cn/info"):
                  yield Request(url,callback=self.parse_content)
    
    • 仔细比对学院网站源码后发现,只能爬取红色标题网页的原因是学院网站网页格式不统一,在解析网页时需要在多加一些或判断。我们打开学校网站的链接,一个一个的看标题,发现红字的是加了span标签的内容,取掉span之后就能爬取黑色标题的内容,但是红色标题的网页名会是空
           #item_loader.add_xpath("title", "//td[@class='titlestyle124904']/span/text()")
    
    • 当我们同时用这两句抓取的时候就可以同时抓到红黑两种,但是我们觉得抓取还是一次就好,不然强行增加运行时间,所以我们查了下xpath的语法,发现用 | 就可以同时爬取红黑标题的内容了,最后发现其实我们学院只有43条页面,其他的都连接到教务处或者科研中心,网页的格式就不一样了。
    • 利用elassticsearch搭建搜索引擎,目前还在编写中。IKanalyzer、ansj_seg、jcseg三种中文分词器,了解了各种分词器的功能,最终我们选择了标准分词器 IKanalyzer,发现如果直接使用elassticsearch在处理中文内容的搜索时遇到很尴尬的问题——中文词语被分成了一个一个的汉字,发现原来这是因为使用了Elasticsearch中默认的标准分词器,这个分词器在处理中文的时候会把中文单词切分成一个一个的汉字,因此引入es之中文的分词器插件es-ik就能解决这个问题。

    Task4:项目燃尽图


    Task5:提交历史截图


    Task6:站立式会议照片

  • 相关阅读:
    CentOS下Redis 2.2.14安装配置详解(转载)
    centos 6.3 64位安装php5.5及配置tengine
    linux下安装php扩展redis缓存
    linux安装ruby ruby-devel rubygems bundler
    composer的create-project安装php框架laravel for mac教程
    Homebrew安装php5及composer for mac教程
    KeepAlive详解
    方便mac os 10.9系统中phpstorm配置php运行环境
    Android使用adb工具及root权限完成手机抓包
    linux服务器监控流量sh脚本
  • 原文地址:https://www.cnblogs.com/qin-yu/p/9975011.html
Copyright © 2020-2023  润新知