爬虫的基本原理

爬虫的基本原理
爬虫就是按照一定的规则，去网页上面自动的抓取程序和脚本。

这个过程其实就是用户输入网址之后，经过DNS服务器，找到服务器主机，向服务器发出一个请求，服务器经过解析之后，发送给用户的浏览器 HTML、JS、CSS 等文件，浏览器解析出来，用户便可以看到形形色色的图片了。

因此，用户看到的网页实质是由 HTML 代码构成的，爬虫爬来的便是这些内容，通过分析和过滤这些 HTML 代码，实现对图片、文字等资源的获取。

至于链接里面的链接，就一直点下去。

这个是backbone ，防止重复点。
```
作者：谢科
链接：https://www.zhihu.com/question/20899988/answer/24923424
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

import Queue

initial_page = "http://www.renminribao.com"

url_queue = Queue.Queue()
seen = set()

seen.insert(initial_page)
url_queue.put(initial_page)

while(True): #一直进行直到海枯石烂
    if url_queue.size()>0:
        current_url = url_queue.get()    #拿出队例中第一个的url
        store(current_url)               #把这个url代表的网页存储好
        for next_url in extract_urls(current_url): #提取把这个url里链向的url
            if next_url not in seen:      
                seen.put(next_url)
                url_queue.put(next_url)
    else:
        break
```
简单点分三步走，

发起请求，get，post 。获取响应内容response 。解析内容 HTML，正则表达式。保存数据。

有多种响应状态，如：200代表成功，301跳转，404找不到页面，502服务器错误
- 1xx消息——请求已被服务器接收，继续处理
- 2xx成功——请求已成功被服务器接收、理解、并接受
- 3xx重定向——需要后续操作才能完成这一请求
- 4xx请求错误——请求含有词法错误或者无法被执行
- 5xx服务器错误——服务器在处理某个正确请求时发生错误常见代码： 200 OK 请求成功 400 Bad Request 客户端请求有语法错误，不能被服务器所理解 401 Unauthorized 请求未经授权，这个状态代码必须和WWW-Authenticate报头域一起使用 403 Forbidden 服务器收到请求，但是拒绝提供服务 404 Not Found 请求资源不存在，eg：输入了错误的URL 500 Internal Server Error 服务器发生不可预期的错误 503 Server Unavailable 服务器当前不能处理客户端的请求，一段时间后可能恢复正常 301 目标永久性转移 302 目标暂时性转移
相关阅读:
telnet
lrzsz工具小问题处理
 1 Boost 安装简介
 klbostee/dumbo
《笨办法学 C 语言》翻译项目
 关注生成器
 PHP学习之三：变量
 HTML5新书三章大纲分享
 C# 处理 google map 经纬度偏移量
 Jquery 的百度地图应用
原文地址：https://www.cnblogs.com/sakura3/p/8418068.html