Python-S9-Day125-Web微信&爬虫框架之scrapy

Python-S9-Day125-Web微信&爬虫框架之scrapy
- 01 今日内容概要
- 02 内容回顾：爬虫
- 03 内容回顾：网络和并发编程
- 04 Web微信之获取联系人列表
- 05 Web微信之发送消息
- 06 为什么request.POST拿不到数据
- 07 到底使用json还是data？
- 08 Web微信之接收消息
- 09 上述内容总结
- 10 scrapy安装
- 11 scrapy基本命令
- 12 scrapy示例：获取抽屉新闻
- 13 scrapy创建下载任务
- 14 今日作业
01 今日内容概要

1.1 Web微信；

　　1.1.1 获取联系人列表；

　　1.1.2 发送消息；

1.2 爬虫框架之scrapy（用的多，神箭手工具）；

　　12.1 大而全的Web框架；类比于Django或Flask；

02 内容回顾：爬虫

2.1 第一部分：爬虫

　　2.1.1 requests和bs4基础

　　2.1.2 web知识
- 请求和请求
- 携带常见请求头——User-Agent efererhostcontent-typecookie
- csrf_token——两个tab打开的同时，其中一个tab诱导我们对另外一个tab提交数据；
　　2.1.3 分析http请求——Chrome浏览器、FireFox浏览器；

　　2.1.4 爬虫的套路-汽车之家、抽屉、抽屉登录、github、拉钩、Web微信；
- XML-数据交换；配置文件；
03 内容回顾：网络和并发编程

3.1 OSI七层模型

3.2 三次握手和四次挥手

3.3 TCP和UDP的区别

3.4 路由器和交换机的区别

3.5 ARP协议

3.6 DNS解析

3.7 HTTP和HTTPS

3.8 进程、线程和携程

3.9 GIL锁

3.10 进程如何进程共享

04 Web微信之获取联系人列表

05 Web微信之发送消息

06 为什么request.POST拿不到数据

07 到底使用json还是data？

08 Web微信之接收消息

09 上述内容总结

9.1 Goal:锻炼分析HTTP请求的能力；

10 scrapy安装

10.1 在爬虫领域，是一个“大而全”的爬虫组件，涵盖了requests、bs4等组件的功能；

10.2 scrapy框架的安装
- windows——下载Twisted文件；pip3 install pywin32 ; pip3 install wheel
- Linux|Unix下的安装pip3 install scrapy;
11 scrapy基本命令

11.1 Django创建Django项目
- 创建项目django-admin startproject HelloDjango
- cd HelloDjango
- 创建应用python manage.py startapp app01
- python manage.py startapp app02
- 启动项目python manage.py runserver
11.2 Scrapy的基本命令；
- 创建项目 scrapy startproject HelloScrapy
- cd HelloScrapy
- scrapy genspider baidu baidu.com
- scrapy genspider jd jd.com
- scrapy crawl baidu
11.3 Scrapy的目录结构；
- scrapy.cfg#主配置文件；
- 项目名称HelloSrapy
- __init__.py
- items.py#定义爬取的数据结构
- middlewares.py#定义爬取时候的中间件
- pipelines.py#定义数据管道
- settings.py#配置文件；
- spiders目录#存放spiders的文件夹；
- __init__.py
12 scrapy示例：获取抽屉新闻

13 scrapy创建下载任务

14 今日作业

14.1 小结；
- HTML解析：xpath
- 再次发起请求：yield Request对象；
相关阅读:
利用SqlBulkCopy快速大批量导入数据
 未能完成操作,无效的FormATETC结构
 JS编码和Asp.net编码
 Sql分页两种常用算法
 Subsonic.exe 生成数据访问层代码，报“从索引 0 处开始，初始化字符串的格式不符合规范”错误解决办法
 Asp.Net,代码实现页面输出缓存
 JS中all Collection 的几个方法
 注册、反注册dll，regsvr32命令详解
 ASP.NET页面传值汇总(Session/Server.Transfer/Query String/Cookie/Application)
表格导出EXCEL
原文地址：https://www.cnblogs.com/tqtl911/p/9635072.html

Python-S9-Day125-Web微信&爬虫框架之scrapy

01 今日内容概要

02 内容回顾：爬虫

03 内容回顾：网络和并发编程

04 Web微信之获取联系人列表

05 Web微信之发送消息

06 为什么request.POST拿不到数据

07 到底使用json还是data？

08 Web微信之接收消息

09 上述内容总结

10 scrapy安装

11 scrapy基本命令

12 scrapy示例：获取抽屉新闻

13 scrapy创建下载任务

14 今日作业

01 今日内容概要

1.1 Web微信；

1.2 爬虫框架之scrapy（用的多，神箭手工具）；

02 内容回顾：爬虫

2.1 第一部分：爬虫

2.1.1 requests和bs4基础

2.1.2 web知识

2.1.3 分析http请求——Chrome浏览器、FireFox浏览器；

2.1.4 爬虫的套路-汽车之家、抽屉、抽屉登录、github、拉钩、Web微信；

03 内容回顾：网络和并发编程

3.1 OSI七层模型

3.2 三次握手和四次挥手

3.3 TCP和UDP的区别

3.4 路由器和交换机的区别

3.5 ARP协议

3.6 DNS解析

3.7 HTTP和HTTPS

3.8 进程、线程和携程

3.9 GIL锁

3.10 进程如何进程共享

04 Web微信之获取联系人列表

05 Web微信之发送消息

06 为什么request.POST拿不到数据

07 到底使用json还是data？

08 Web微信之接收消息

09 上述内容总结

9.1 Goal:锻炼分析HTTP请求的能力；

10 scrapy安装

10.1 在爬虫领域，是一个“大而全”的爬虫组件，涵盖了requests、bs4等组件的功能；

10.2 scrapy框架的安装

11.1 Django创建Django项目

11.2 Scrapy的基本命令；

11.3 Scrapy的目录结构；

12 scrapy示例：获取抽屉新闻

13 scrapy创建下载任务

14 今日作业

14.1 小结；

　　2.1.1 requests和bs4基础

　　2.1.2 web知识

　　2.1.3 分析http请求——Chrome浏览器、FireFox浏览器；

　　2.1.4 爬虫的套路-汽车之家、抽屉、抽屉登录、github、拉钩、Web微信；