前期开题报告已经准备好,剩下的只是把论文所需支持的文档及论文模板的编写,对毕业论文各些小细节的整理。
一.论文所需代码自己也是整理好了,用的就是之前在公司上班时期所做的项目。
1.项目目的及内容:采集各大网站的数据信息,网站大概90多个,采集量百万条起。
2.各大网站都有不一定的反爬机制,需要根据不同的规则去应对网站。
3.难点:
-应对不同的反爬,解决网站出现的bug
-设置单线程配置定时时间去调度爬虫项目采集信息(后期项目的综合整理都是有我们组长大哥负责的,个人参与的不多,仍有许多问题去自己理解)
-配置手机邮箱通知,网站数据更新就作邮件通知,再调集相对应爬虫项目,做增量爬虫。
二.论文模板
模板内容,我们的导师也是最近刚发到群里通知,也没来得及及时去看,模板过几天自己也会去更新整理一下,看看有什么需要整理的。
感觉需要写的东西好多,但是还好自己平时也喜欢去写一些东西,文献都要参考好多,及对自己项目的补充详细说明。