python爬虫概述

python爬虫概述
1. 网络爬虫的概念：模拟客户端（主要指浏览器），发送网络请求，获取网络响应数据的自动化程序。　　
2. 爬虫的应用场景：
  - 数据采集 通过python爬虫爬取微博事件评论，进行舆情分析；通过爬取互联网岗位信息，进行行业分析；天气预报等数据采集
  - 软件测试 使用selenium进行软件测试
  - 短信轰炸、12306买票等
3. http协议与https协议
- - http协议，超文本传输协议，默认端口号80
    
    超文本传，超越文本，不限于文本，包含视频、图片等
    
    传输协议，共同约定一种格式，进行数据传输
  - https,即http+ssl(安全套接字)，默认端口443
    
    ssl针对传输内容进行加密操作
　　4.http的响应格式：
- - get请求
    
    请求行 请求方式+路径+协议版本
    
    请求头 请求地址、cookies等信息（各种信息较多，不详细描述）
    
    空行
  - post请求
    
    请求行（同get请求）
    
    请求头（同get请求）
    
    请求体（账号、表单等信息，同时会包含一些反爬字段注意识别）
    
    空行
5.请求头字段介绍
- - host(域名)：www.baidu.com
  - connection(链接方式):keep-alive
  - User-Agent(用户代理):浏览器的基本信息
  - referer(页面跳转处)：防止盗链及增加反爬手段
  - cookies(用户标识): 用户的唯一标识，用来识别唯一用户
6.常见状态码
- - 200：成功
  - 302：跳转
  - 303：对post请求的响应进行重定向新的url
  - 307：对get请求的响应进行重定向
  - 403：服务端理解客户的请求，但拒绝他。没有权限
  - 404：找不到该页面
  - 500：服务器内部错误
  - 503：服务器由于维护或负载过重未能应答，有可能是因为爬虫的频繁响应，使服务器忽视爬虫的请求
对于服务器返回的状态码，仅供爬虫时参考，不能完全相信。
相关阅读:
java集合：ArrayList（1）
java虚拟机：堆内存
 计算机三种编码与加减运算
 java虚拟机：程序计数器
 java虚拟机：JIT编译器
 java虚拟机：运行时常量池
 java虚拟机：方法区
 java虚拟机：本地方法栈
 java虚拟机：class文件结构
 linux安装mysql
原文地址：https://www.cnblogs.com/luweilehei/p/13039851.html