爬虫简介

爬虫简介
爬虫的定义

爬虫：按照一定的规则，自动抓取互联网信息的程序或者脚本，从而获取对于我们有价值的信息。

爬虫的两大特征
1. 能够按照作者的要求下载数据或者内容
2. 能自动在网络上流窜
爬虫的三大步骤
1. 下载网页
2. 提取正确的信息
3. 根据一定的规则自动跳到另外的网页上执行上两步
爬虫的分类
1. 通用爬虫
2. 专用爬虫（聚焦爬虫）
爬虫的结构

Python爬虫架构主要由五个部分组成，分别是调度器、URL管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）。
1. 调度器：相当于一台电脑的CPU，主要负责调度URL管理器、下载器、解析器之间的协调工作。
2. URL管理器：包括待爬取的URL地址和已爬取的URL地址，防止重复抓取URL和循环抓取URL，实现URL管理器主要用三种方式，通过内存、数据库、缓存数据库来实现。
3. 网页下载器：通过传入一个URL地址来下载网页，将网页转换成一个字符串，网页下载器有urllib2（Python官方基础模块）包括需要登录、代理、和cookie，requests(第三方包)
4. 网页解析器：将一个网页字符串进行解析，可以按照我们的要求来提取出我们有用的信息，也可以根据DOM树的解析方式来解析。网页解析器有正则表达式（直观，将网页转成字符串通过模糊匹配的方式来提取有价值的信息，当文档比较复杂的时候，该方法提取数据的时候就会非常的困难）、html.parser（Python自带的）、beautifulsoup（第三方插件，可以使用Python自带的html.parser进行解析，也可以使用lxml进行解析，相对于其他几种来说要强大一些）、lxml（第三方插件，可以解析xml和HTML），html.parser和beautifulsoup以及lxml都是以DOM树的方式进行解析的。
5. 应用程序：就是从网页中提取的有用数据组成的一个应用。
爬虫的执行流程

爬虫常用模块

Py2.x：
- Urllib库
- Urllin2库
Py3.x：
- Urllib库
变化：
- 在Pytho2.x中使用import urllib2——-对应的，在Python3.x中会使用import urllib.request，urllib.error。
- 在Pytho2.x中使用import urllib——-对应的，在Python3.x中会使用import urllib.request，urllib.error，urllib.parse。
- 在Pytho2.x中使用import urlparse——-对应的，在Python3.x中会使用import urllib.parse。
- 在Pytho2.x中使用import urlopen——-对应的，在Python3.x中会使用import urllib.request.urlopen。
- 在Pytho2.x中使用import urlencode——-对应的，在Python3.x中会使用import urllib.parse.urlencode。
- 在Pytho2.x中使用import urllib.quote——-对应的，在Python3.x中会使用import urllib.request.quote。
- 在Pytho2.x中使用cookielib.CookieJar——-对应的，在Python3.x中会使用http.CookieJar。
- 在Pytho2.x中使用urllib2.Request——-对应的，在Python3.x中会使用urllib.request.Request。
相关阅读:
4星|万维刚《你有你的计划,世界另有计划》：前物理学家的读书笔记，主要是社会科学领域的书
 3星|《耕作革命》：免耕、保留作物残茬、不同作物轮作的保护性农业，环保且高产
 2.5星|《逆商》：1997年出版的鸡汤，强调积极乐观面对逆境
 3星|《产品游戏化》：游戏类软件产品的宏观开发流程
 2星|曾仕强《人性管理》：故事会水平，像是没有学术背景的讲师
 3.5星|《是谁出的题这么难,到处都是正确答案》：麦肯锡的经历，文艺妈妈的笔，温馨的父母与丈夫
 基础连接已经关闭: 未能为 SSL/TLS 安全通道建立信任关系。根据验证过程，远程证书无效------解决方法
 XmlDocument.Load(url) 本地和http远程
 Windows服务启动进程----Cjwdev.WindowsApi.dll
winform无需安装pdf阅读器打开pdf文件
原文地址：https://www.cnblogs.com/fu-yong/p/9016749.html

爬虫的定义

爬虫的两大特征

爬虫的三大步骤

爬虫的分类

爬虫的结构

爬虫的执行流程

爬虫常用模块