• Python爬虫个人梳理(代码有空写)


    这里多是摘抄的,只是用于个人理解。

    1。urlopen().read()是爬取网页的内容,出来可能是一堆的源代码。和我们右击网页查看是一样的。

    2。当用到http请求的时候,
    我们可以使用Request将请求的地址url封装为一个请求,再用urlopen
    发送数据:
    有时候你希望发送一些数据到URL(通常URL与CGI[通用网关接口]脚本,或其他WEB应用程序挂接)。
    在HTTP中,这个经常使用熟知的POST请求发送。
    这个通常在你提交一个HTML表单时由你的浏览器来做。
    并不是所有的POSTs都来源于表单,你能够使用POST提交任意的数据到你自己的程序。
    一般的HTML表单,data需要编码成标准形式。然后做为data参数传到Request对象。
    3报头,伪装成浏览器用User-Agent

    增加报头有两个方法,一个是直接就在字典写,一个是以addheaders的形式增加http://www.jb51.net/article/51941.htm

    4。异常处理
    典型的错误包含"404"(页面无法找到),"403"(请求禁止),和"401"(带验证请求)。
    5 。handlers 代理
    Openers使用处理器handlers,所有的“繁重”工作由handlers处理。
    每个handlers知道如何通过特定协议打开URLs,或者如何处理URL打开时的各个方面。
    例如HTTP重定向或者HTTP cookies。

    如果你希望用特定处理器获取URLs你会想创建一个openers,例如获取一个能处理cookie的opener,或者获取一个不重定向的opener。

    要创建一个 opener,可以实例化一个OpenerDirector,
    然后调用.add_handler(some_handler_instance)。
    同样,可以使用build_opener,这是一个更加方便的函数,用来创建opener对象,他只需要一次函数调用。
    build_opener默认添加几个处理器,但提供快捷的方法来添加或更新默认处理器。
    其他的处理器handlers你或许会希望处理代理,验证,和其他常用但有点特殊的情况。

    install_opener 用来创建(全局)默认opener。这个表示调用urlopen将使用你安装的opener。
    Opener对象有一个open方法。
    该方法可以像urlopen函数那样直接用来获取urls:通常不必调用install_opener,除了为了方便。



  • 相关阅读:
    iOS6和iOS7代码的适配(5)——popOver
    es5创建对象与继承
    js学习日记-new Object和Object.create到底干了啥
    js滚动及可视区域的相关的操作
    css匹配规则及性能
    normalize.css源码分析
    css的水平居中和垂直居中总结
    js快速排序算法
    数据结构flash演示
    二叉树遍历
  • 原文地址:https://www.cnblogs.com/lqs-zsjky/p/6061393.html
Copyright © 2020-2023  润新知