01-01爬虫的基本原理
一、爬虫是什么
#1.什么是互联网?
互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。
#2.互联网建立的目的?
互联网核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了方便彼此之间的数据共享和传递,否则只能拿u盘去拷贝别人的计算机上的数据了。
#3.什么是上网?爬虫要做的是什么?
我们所谓的上网便是由用户端计算机发送请求给目标计算机,将目标计算机的数据下载到本地的过程。
一般用户上网流程: 浏览器提交请求 -> 下载网页代码 -> 解析/渲染成页面
而爬虫要做的就是:模拟浏览器发送请求 ->下载网页代码 -> 只提取有用的数据 -> 存放于数据库或文件中
两者区别在于:爬虫只提取网页代码中对我们有用的数据。
#4.总结爬虫
如果把互联网比喻成一张蜘蛛网,那么每台计算机上面的数据就是一个猎物,爬虫就是蜘蛛,沿着蜘蛛网爬取自己想要的猎物/数据。
#爬虫定义
向网站发起请求,获取资源后分析并提取有用数据的程序。
#爬虫价值
天猫商城的商品信息,链家网的租房信息,雪球网的证券投资信息等都是非常有价值的。
二、爬虫的基本流程
'''发送请求 -> 获取响应内容 -> 解析内容 -> 保存数据'''
#1,发送请求
使用http库向目标站点发起请求,即发送一个Request
Request包括:请求头和请求体等
#2.获取响应内容
如果服务器可以正常访问,则会得到一个Response
Response包括:html,json, 图片,视频等
#3.解析内容
解析html数据:正则表达式,第三方解析库如bs4,pyquery等
解析json数据:json模块
解析二进制数据:以b的方式写入文件
#4.保存数据
数据库
文件
三、请求与响应
#http协议:http://www.baidu.com
#Request: 用户将自己的信息通过浏览器(socket client)发送给服务器(socket server)
#Response: 服务器接收请求,分析用户发来的请求信息,然后返回数据(返回的数据中可能包含其他链接,图片,js,css等)
#ps: 浏览器在接收Response后,会解析其内容来显示给用户,而爬虫程序在模拟浏览器发送请求然后接收response后,是要提取其中有用的数据的。
四、Request
#1.请求方式:
常用post,get。
其他请求方式:head,put,delete,opthons
ps: 浏览器登录baidu.com,是get请求。
输入用户名密码后,application中找到?login,是Post请求。
登录用户会在cookies中保存一个BIDIUss 加密字符串。
post与get请求最终都会拼接成这种形式:k1=xxx&k2=yyy&k3=zzz
post请求的参数放在请求体内:
用浏览器查看,存放于form data内
get请求的参数直接放在url后
#2.请求Url
url全称统一资源定位符,如一个网页文档,一张图片,一个视频等都可以用url唯一来确定
url编码
https://baidu.com/s?wd=图片。
'图片'两个字会进行编码,确保服务器能够识别。
'''
网页的加载过程:
加载一个网页,通常都是先加载document文档,在解析document文档的时候,遇到链接,则针对超链接发起下载图片的请求。
'''
#3。请求头
user-agent:请求头中如果没有user-agent客户端配置,服务端可能将你当做一个非法用户
host
cookies:cookie用来保存登录信息
'''
一般做爬虫都会加上请求头
'''
#4.请求体
get方式,请求体没有内容
post方式,请求体是form data
'''
ps:
1.登录窗口,文件上传等,信息都会被附加到请求体内
2.登录,输入用户名,密码,然后提交,能看到post请求
'''
五、Response
#1.响应状态
200: 代表成功
301: 代表跳转
404: 文件不存在
403: 权限
502: 服务器错误
#2.Response header
set-cookie: 可能有多个,是来告诉浏览器,把cookie保存下来
#3.preview就是网页源代码
最主要的部分,包含了请求资源的内容
如网页html,图片,二进制等
六、总结
#1.总结爬虫流程
爬取 -> 解析 -> 存储
#2.爬虫所需工具
请求库:requests, selenium
解析库:正则,beautifulsoup,pyquery
存储库:文件,mySQL, Mongdb, Redis
#3.爬虫常用框架
scrapy