大数据课程设计
课程要求
1.爬取学校研究生院主页上关于信息学院研究生导师的信息
1.1主页 http://dsxxcx.zstu.edu.cn/master/index.php?r=site/college&college=信息学院
1.2 使用python+scrapy扒数据
1.3 按照name(导师姓名)、title(职称)、info(导师研究方向)组织爬取的数据
1.4 爬取的数据存为csv格式文档
2.统计导师的职称、研究方向信息
2.1根据上一步获得的csv格式文档,导入xls软件
2.2 统计导师的职称分布情况
2.3 统计导师的研究方向情况(此部分按照要求完成,能获得10分)
2.4 其他信息统计(加分项,此部分按照要求完成,能再获得10分)
环境配置
更换镜像源
pip config set global.index-url http://mirrors.aliyun.com/pypi/simple/
下载框架
pip install scrapy
具体实现过程
新建项目
scrapy startproject test #新建项目
scrapy genspider test http://dsxxcx.zstu.edu.cn/master/index.php?r=site/college&college=%E4%BF%A1%E6%81%AF%E5%AD%A6%E9%99%A2 #确定目标