• Python3爬虫(一)HTTP相关基础


     Infi-chu:

    http://www.cnblogs.com/Infi-chu/

    一、URI、URL、URN、HTTP

    URI:统一资源标志符

    URL:是URI的一个子集

    URN:是URI的另一个子集,统一资源名称

    HTTP协议:
      超文本传输协议,是一个基于“请求与响应”模式的、无状态的引用层协议。
      HTTP协议采用URL作为定位网络资源的标识。
      URL格式 http://host[:port][path]

    二、请求

    1.请求方法

    2.请求的网址

    3.请求头

    4.请求体

    三、响应:

    1.响应状态码

    2.响应头

    3.响应体

    四、GET和POST的区别:

    1.GET相对于POST较不安全,GET将参数包含在URL里面,POST是通过表单形式传输的,包含在请求体中。

    2.GET最多提交的数据大小为1024字节,POST没有限制

    3.GET效率较高与POST

    五、DOM

    1.含义:文档对象模型,定义了访问HTML和XML文档标准

    2.DOM:

      1.核心DOM:针对任何结构化文档的标准模型

      2.XML DOM:针对XML文档的标准模型

      3.HTML DOM:针对HTML文档的标准模型

        a.整个文档是一个文档节点

        b.每个HTML元素是元素节点

        c.HTML元素内的文本是文本节点

        d.每个HTML属性是属性节点

        e.注释是注释节点

    【注】

    节点树中的节点,批次拥有层级关系,常用的有父节点(parent)、子节点(child)、兄弟节点(sibling)

    六、爬虫爬取的步骤:

    1.获取网页

    2.提取信息

    3.保存数据

    4.自动化爬取程序

    七、代理的作用:

    1.突破自身IP访问限制,访问一些平时不能访问的站点

    2.访问一些单位或团体的内部资源

    3.提高访问速度

    4.隐藏真实IP

    八、代理的分类

    1.根据协议分类:

      协议  一般开放端口

      FTP  21、2121

      HTTP     80、8080、3128

      SSL/TLS 443

      RTSP   554

      Telnet   23

      POP3/SMTP  110/25

      SOCKS  1080

    2.根据匿名程度分类:

      a.高度匿名代理

      b.普通匿名代理

      c.透明代理

      d.间谍代理

  • 相关阅读:
    数仓1.3 |行为数据| 业务数据需求
    数仓1.1 |概述| 集群环境搭建
    麒麟Kylin
    ng--todolist
    mysql必知必会--用正则表达式 进行搜索
    mysql必知必会--用通配符进行过滤
    mysql必知必会--数 据 过 滤
    mysql必知必会--过 滤 数 据
    mysql必知必会--排序检索数据
    mysql必知必会--检 索 数 据
  • 原文地址:https://www.cnblogs.com/Infi-chu/p/8942264.html
Copyright © 2020-2023  润新知