爬虫介绍

爬虫是什么

爬虫是一个模仿浏览器行为，向服务器发送请求并且获得数据的应用程序。而互联网好比一张大网，数据是网上的猎物，爬虫就是蜘蛛

发起请求 --> 获取数据 --> 解析数据 --> 存储数据

抓包工具：fiddler、mitmproxy

Elements：浏览器渲染后的代码，爬虫爬取的是原始数据

Console：js控制台，可以执行js代码，在js注入之前进行调试。如document.charset可以查看编码格式

Sources：网页的资源

Network：网页的抓包工具

Request URL：请求地址
Request Method：请求方式
- get
- post
  - 请求体：formdata、json、files三种格式
Request Headers：请求头
- Cookie：保存信息（主要记录用户登录状态）
- User-Agent：用户身份
- Referer：告诉服务器你从哪里来。防止盗链行为
- 服务器特有字段

Status Code：状态码
- 2xx：请求成功，但是不能用这个作为请求成功的唯一标识
- 3xx：重定向
- 4xx：客户端错误
- 5xx：服务器错误
响应头
- location：重定向的url
- set-cookie：设置cookie
- 服务器特定字段
响应体
- html代码
- 二进制：图片，视频，音频
- json格式
- jsonp格式：可以跨域

1.检测浏览器headers

2.ip封禁

3.图片验证码

4.滑动模块

5.js轨迹

6.前端反调试

7.js加密算法

相关阅读:
Linux安装.net core
在IIS中如何配置SSL(https)
Lambda的前世今生
Java建造者模式
leetcode 83 Remove Duplicates from Sorted List
【设计】Office
【设计】简书品牌重构
【设计总结】
【交互设计】
【设计总结】

原文地址：https://www.cnblogs.com/863652104kai/p/11692700.html