• python爬虫概述


    1. 网络爬虫的概念:模拟客户端(主要指浏览器),发送网络请求,获取网络响应数据的自动化程序。  
    2. 爬虫的应用场景:
      • 数据采集   通过python爬虫爬取微博事件评论,进行舆情分析;通过爬取互联网岗位信息,进行行业分析;天气预报等数据采集
      • 软件测试   使用selenium进行软件测试
      • 短信轰炸、12306买票等
    3. http协议与https协议
      • http协议,超文本传输协议,默认端口号80
        • 超文本传,超越文本,不限于文本,包含视频、图片等
        • 传输协议,共同约定一种格式,进行数据传输
      • https,即http+ssl(安全套接字),默认端口443
        • ssl针对传输内容进行加密操作

      4.http的响应格式:

      • get请求
        • 请求行    请求方式+路径+协议版本
        • 请求头    请求地址、cookies等信息(各种信息较多,不详细描述)
        • 空行
      • post请求
        • 请求行   (同get请求)
        • 请求头   (同get请求)
        • 请求体   (账号、表单等信息,同时会包含一些反爬字段注意识别)
        • 空行

    5.请求头字段介绍

      • host(域名):www.baidu.com
      • connection(链接方式):keep-alive
      • User-Agent(用户代理):浏览器的基本信息
      • referer(页面跳转处):防止盗链及增加反爬手段
      • cookies(用户标识): 用户的唯一标识,用来识别唯一用户

    6.常见状态码

      • 200:成功
      • 302:跳转
      • 303:对post请求的响应进行重定向新的url
      • 307:对get请求的响应进行重定向
      • 403:服务端理解客户的请求,但拒绝他。没有权限
      • 404:找不到该页面
      • 500:服务器内部错误
      • 503:服务器由于维护或负载过重未能应答,有可能是因为爬虫的频繁响应,使服务器忽视爬虫的请求

               对于服务器返回的状态码,仅供爬虫时参考,不能完全相信。

  • 相关阅读:
    java集合:ArrayList(1)
    java虚拟机:堆内存
    计算机三种编码与加减运算
    java虚拟机:程序计数器
    java虚拟机:JIT编译器
    java虚拟机:运行时常量池
    java虚拟机:方法区
    java虚拟机:本地方法栈
    java虚拟机:class文件结构
    linux安装mysql
  • 原文地址:https://www.cnblogs.com/luweilehei/p/13039851.html
Copyright © 2020-2023  润新知