python爬取并下载麦子学院所有视频教程

python爬取并下载麦子学院所有视频教程
一、主要思路
1. scrapy爬取是有课程地址及名称
2. 使用multiprocessing进行下载
3. 就是为了爬点视频，所以是简单的代码堆砌
4. 想而未实行，进行共享的方式
二、文件说明
1. itemsscray字段
2. piplines.py存储数据库
3. setting.py scrapy配置需要注意的是DEFAULT_REQUEST_HEADERS的设置，需要模拟登录
4. mz.py是主要爬虫都是基本的爬虫功能，css+xpath+正则
5. start_urls = ["http://www.maiziedu.com/course/web/", ]只爬了web的，可根据需要进行，或者全部，
6. 本想不存储进数据库，直接在mz.py进行下载，但考虑到位会影响scrapy原有的性能，单独进行下载
down.py 使用multiprocessing进行下载原本想着动态监听scrapy在数据库的中的结果，想实现进程的共享，调试多次还出现问题所以直接用Pool.Map（）这种比较粗暴的方式，

mz.json现存取进json，但考虑到来回操作json文件，影响效率，所以改用数据库

三、结果
源码 :https://git.oschina.net/getsai/mzSpider.git

视频地址：https://yunpan.cn/crjXKLGnkpzPk 访问密码 6c15
来自为知笔记(Wiz)
相关阅读:
iframe跨域
 changePage() 页面跳转
 APACHE启动失败是SYSTEM对apache目录没权限导致
 git使用中出现的错误
 python面试总结
 python面试30-40题
 python面试1-30题
 购物车的基本流程
 vue的基础知识
 三大框架的对比
原文地址：https://www.cnblogs.com/yinsolence/p/5140297.html