• python爬虫零散知识点


    1.HTTP的请求方式:

      1)get请求:

        优点:便捷

        缺点:不安全,明文;参数的长度有限制

      2)post请求

        优点:比较安全;数据整体没有限制;上传文件

      3)put请求

      4)delete请求

      5)head请求

    2.请求头的内容:

      1)Accept:文本的格式

      2)Accept-Encoding:编码格式

      3)Connection:长/短链接

      4)   cookie:验证用的

      5)Host:域名

      6)Referer:标志从哪个页面跳转过来的

      7)User-Agent:浏览器和用户信息  

    3.请求过程

      1)浏览器:本机ip、目标网址(eg:http://baidu.com)

      2)将目标网址发送给dns(域名解析服务商),解析成ip地址返回

      3)目标服务器ip

      4)目标服务器根据请求,从数据库取出数据返回给浏览器

    4.HTTP和HTTPS的区别

      端口号不同。HTTP端口号是80;https端口号是443

    5.ip代理

      免费的ip;付费的ip

      ip分类:

        1)透明:对方知道我们的真实ip

        2)匿名:对方不知道我们真实的ip,但知道你用了代理

        3)高匿:对方不知道我们的真实ip,也不知道我们用了代理  

    6.自定义handler和opener

      1)urllib.request.urlopen(url)能访问页面是因为有opener和handler,系统已经定义好了,但是不支持代理、cookie等其他高级功能,需要自定义handler实现
      2)步骤
      1.获得handler
      urllib.request.XXXXHandler()
      2.创建opener
      urllib.request.build_opener(handler)
      3.通过opener.open访问,得到response
      opener.open(html)
      3)系统的urlopen不支持代理的添加
      创建对应的处理器(handler)
      1.创建ProxyHandle
      2.创建opener:bulid_open(handler)
      3.opener.open(url)

       

  • 相关阅读:
    在数据库里进行分页处理
    new Date()在IE,谷歌,火狐上的一些注意项
    sql的一些小东西
    将sql数据库逆向生成PDM模型
    关于禁止在 .NET Framework 中执行用户代码。启用 "clr enabled" 配置选项
    MVC的Model层中的一些便签
    通过URL推送POST数据
    Python 关键字
    Python 标识符
    Python 注释(Python Comments)用法详解
  • 原文地址:https://www.cnblogs.com/yejiang/p/10642270.html
Copyright © 2020-2023  润新知