爬虫原理与技术

爬虫原理与技术
爬虫原理与技术

一.爬虫实现原理

1.通用爬虫工作原理

通用爬虫是一个自动提取网页程序的程序,它为搜索引擎从Internet上下载网页,是搜索引擎的重要组成部分

通用爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在爬取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的停止条件
```
from IPython.display import Image

Image(filename="./data/2_1.png",width=500)
```
搜索引擎是通用爬虫的最重要应用领域.介绍搜索引擎的主要工作流程：
1. 爬取网页
2. 数据存储
3. 预处理
4. 提供检索服务,网站排名
2.聚焦爬虫工作原理

聚焦爬虫需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接,并将其放入等待爬取的URL队列.然后它将根据一定的搜索策略从队列中选择下一步要爬取的网页URL,并重复上述过程,直到达到系统的某一条件时停止
```
Image(filename="./data/2_2.png",width=500)
```
相对于通用网络爬虫,聚焦爬虫需要解决3个重要问题：
1. 对爬取目标的描述或定义
2. 对网页或数据的分析与过滤
3. 对URL的搜索策略
二.通用爬虫相关网站文件

通过网站本身提供的robots.txt和sitemap.xml

1.robots.txt文件

网站通过一个符合Robots协议的robots.txt文件来告诉搜索引擎哪些页面可以爬取,那些页面不能爬取.robots.txt文件是搜索引擎访问网站时要查看的第一个文件.一般情况下,该文件一一行或多行User-agent记录开始,后面再跟若干行Disallow记录.实例如下：
```
import urllib.request

response=urllib.request.urlopen("https://www.taobao.com/robots.txt")

robots=response.read().decode("utf-8")

print(robots)
```
```
User-agent:  Baiduspider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Allow: /$
Disallow:  /product/
Disallow:  /

User-Agent:  Googlebot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /

User-agent:  Bingbot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /

User-Agent:  360Spider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Disallow:  /

User-Agent:  Yisouspider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Disallow:  /

User-Agent:  Sogouspider
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /ershou
Disallow:  /

User-Agent:  Yahoo!  Slurp
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /

User-Agent:  *
Disallow:  /
```
- User-agent：该项的值用于描述搜索引擎robot的名字.在robots.txt文件中,至少要有一条User-agent记录.如果有多条User-agent记录,则说明有多个robot会受到该协议的限制.若该项的值设为"*",则该协议对任何搜索引擎均有效,且这样的记录只能有一条
- Disallow：该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分路径.任何一条Disallow记录为空,都说明该网站的所有部分都允许被访问.在robots.txt文件中,至少要有一条Disallow记录
- Allow：该项的值用于描述希望被访问的一组URL
注意：robots.txt文件必须放置在一个站点的根目录下,而且文件名必须全部小写

2.sitemap.xml文件

为了方便网站管理员通知爬虫遍历和更新网站的内容,而无须爬取每个网页,网站提供了sitemap.xml文件(网站地图)

三.防爬虫应对策略

1.设置User-Agent

User-Agent表示用户代理,是HTTP协议中的一个字段,其作用是描述发出HTTP请求的终端信息,如操作系统及版本,浏览器及版本等,服务器通过这个字段可以知道访问网站的用户
```
Image(filename="./data/2_3.png",width=500)
```
2.使用代理IP

所谓代理IP就是介于用户和网站之间的第三者,即用户先将请求发送给代理IP,之后代理IP再发送到服务器,这时服务器会将代理IP视为爬虫IP,同时用多个代理IP,可以降低单个IP地址的访问量,就能防止爬虫爬取数据的概率

3.降低访问频率

python中提供time模块,使程序执行完,暂时休息若干秒,调用函数sleep()即可

4.验证码限制
相关阅读:
WCF message logging and tracing
How to create a custom composite activity
两个Datatable合并
 JS生成柱形图表
 InstallShiled12激活过程
 InstallShield Premier版本和Professional版本的功能差异
 InstallShield12注册过程
 Oracle回收站使用
 SQLite数据库管理的相关命令
 Installshield 2010 预安装组件或软件
原文地址：https://www.cnblogs.com/LQ6H/p/12940572.html

爬虫原理与技术

爬虫原理与技术

一.爬虫实现原理

1.通用爬虫工作原理

2.聚焦爬虫工作原理

二.通用爬虫相关网站文件

1.robots.txt文件

2.sitemap.xml文件

三.防爬虫应对策略

1.设置User-Agent

2.使用代理IP

3.降低访问频率

4.验证码限制