爬虫的基本知识

爬虫的基本知识
1.浏览器的请求
- url
  - 在Chrome中点击检查，点到network
  - url=请求的协议+网站的域名+资源的路径+参数
- 浏览器请求url地址
  - 当前的url对应的响应+js+css+图片 ===>> elements中的内容
- 爬虫请求url地址
  - 当前url地址对应的响应
- elements的内容和爬虫获取到的url地址的响应不同，爬虫中需要当前的url地址对应的响应为准提取数据
- 当前的url地址对应的响应在哪里
  - 从network中找到当前的url地址，点击response
  - 在页面右键显示网页源代码
认识http和https
- http：超文本传输协议
  - 以明文的形式传输
  - 效率更高，但是不安全
- https：http + SSL（安全套接字层）
  - 传输数据之前先进行加密，之后解密获取内容
  - 效率较低，但是安全
- get和post请求的区别
  - get请求没有请求体,post有请求体,get把数据方法url地址中
  - post请求常用于登录注册,传输大文本的时候
  - post请求携带的数据量比get大，多
- HTTP之请求
  - 1、请求行
  - 2、请求头
    
    User-Agent: 用户代理：对方服务器用过User-Agent知道当前请求对方资源的是什么浏览器
    
    如果我们需要模拟手机版的浏览器发起请求，响应的，就需要把User-Agent改成手机版
    
    Cookie: 用来存储用户信息的，每次携带上发送给对方的浏览器
    
    要获取登录后才能访问的页面
    
    对方的服务器会通过cookie判断我们是不是一个爬虫
  - 3、请求体
    
    携带数据
    
    get请求没有请求体
    
    post请求有请求体
- HTTP之响应
  - 1、响应头
    
    Set-Cookie: 对方服务器通过该字段设置cookie到本地
  - 2、响应体
    
    url地址对应的响应
相关阅读:
基于云的平台利用新技术来改变商店式购物营销
 在云上战斗：游戏设计师推出 Windows Azure 上的全球在线游戏
 use Visual studio2012 development kernel to hidden process on Windows8
Mobile Services更新：增加了新的 HTML5/JS SDK 并对 Windows Phone 7.5 进行支持
 [转载]30个Oracle语句优化法例详解(3)
[转载]Informix4gl FORM：直立控制录入两遍一概信息的设置
 [转载]Oracle数据库异构数据结合详解(1)
[转载]informix onbar规复饬令用法
 [转载]30个Oracle语句优化划定端正详解(4)
[转载]同一台效力器上搭建HDR实例
原文地址：https://www.cnblogs.com/liudemeng/p/10711478.html

爬虫的基本知识

1.浏览器的请求

认识http和https