一、基本流程
1.发起请求:通过HTTP库向目标站点发起请求,即发送一个request,请求可以包含额外的headers等信息,等待服务器响应
2.解析内容:得到的内容可能是HTML,可以用正则表达式,网页解析库进行解析;可能是Json,可以直接转换为Json对象解析;可能是二进制数据,可以保存或者进一步处理
3.获取响应内容:如果服务器能正常响应,会得到一个response,response的内容可能有HTML,Json字符串,二进制数据(图片、视频)等类型
4.保存数据:可以保存为文本,也可以保存在数据库
二、Request
1.请求方式:
(1)GET:请求的参数都在网址内
(2)POST:不在网址内
2.URL
3.请求头:包含请求时的头部信息,如User-Agent、Host、Cookies等信息
4.请求时额外携带的数据,如表单提交时的表单数据
三、Response
- 响应状态:200为正常状态、404未找到页面
- 响应头:内容类型、长度、服务器信息、设置Cookie
- 响应体:包含HTML、图片二进制