Python爬虫基础七原理

爬虫的基本原理

爬虫概述

简单来说，爬虫就是获取网页并提取和保存信息的自动化程序。

可以将爬虫总结为4个步骤：

1.获取网页

爬虫首先要做的工作就是获取网页，也就是获取网页的源代码，源代码包含了网页的部分有用信息，所以只要把源代码获取下来，就可以从中提取想要的信息。

根据请求和响应的概念，向网站的服务器发送一个请求，返回的响应体便是网页源代码，因此最关键的部分就是构造一个请求并发送给服务器，然后接受到响应并将其解析出来。

2、爬虫分类

通用爬虫
实例：
       百度、360、Google等搜索引擎
功能：
       访问网页->抓取数据->数据存储->数据处理->提供检索服务->

robots协议
        一个约定俗成的协议，添加robots.txt.文件来说明本网站哪些内容不可以被抓取，起不到限制作用。


聚焦爬虫
功能：
　　根据需求，实现爬虫程序，抓取需要的数据
设计思路
　　1、确定要爬取的url　
　　　　　如何获取url
　　2、模拟浏览器通过http协议访问url,获取服务器返回的html代码
　　　　　如何访问
　　3、解析html字符串（根据一定规则提取需要的数据）
　　　　　如何解析

3、反爬手段

1、User-Agent：
        User Agent中文名为用户代理，简称UA,它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
2、代理IP
        透明代理：对方服务器可以知道你使用了代理，并且也知道你的真实IP.
        匿名代理：对方服务器可以知道你使用了代理，但不知道你的真实IP。
        高匿名代理：对方服务器不知道你使用了代理，更不知道你的真实IP。
3、验证码访问
        打码平台
            云打码平台
4、动态加载网页，网站返回的是js数据，并不是网页的真实数据
        selenium驱动真实的浏览器发送请求
5、数据加密
        分析js代码

相关阅读:
平衡数问题
重复值判断练习题
小范围排序
堆排序
基数排序
计数排序
希尔排序
快速排序
Effective C++笔记：实现
Effective C++笔记：设计与声明

原文地址：https://www.cnblogs.com/Williamls/p/16278509.html