• 爬虫基础入门(一)


    • 1 URL含义
      URL的格式由三部分组成:
      ①第一部分是协议(或称为服务方式)。
      ②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
      ③第三部分是主机资源的具体地址,如目录和文件名等。
    • 2 分析扒网页的方法
      response = urllib2.urlopen("http://www.baidu.com")
    

    首先调用的是urllib2库里面的urlopen方法,传入一个URL,这个网址是百度首页,协议是HTTP协议,当然你也可以把HTTP换做FTP,FILE,HTTPS 等等,只是代表了一种访问控制协议,urlopen一般接受三个参数,它的参数如下:

     urlopen(url, data, timeout)
    

    第一个参数url即为URL,第二个参数data是访问URL时要传送的数据,第三个timeout是设置超时时间。
    第二三个参数是可以不传送的,data默认为空None,timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT
    第一个参数URL是必须要传送的,在这个例子里面我们传送了百度的URL,执行urlopen方法之后,返回一个response对象,返回信息便保存在这里面。

    print response.read()
    

    response对象有一个read方法,可以返回获取到的网页内容。记得一定要加read方法,否则它不出来内容咯!

    • 3 构造Requset
    import urllib2
    request = urllib2.Request("http://www.baidu.com")
    response = urllib2.urlopen(request)
    print response.read()
    
    • 4 POST和GET数据传送

    Urllib库的高级用法

    • 1 设置Headers
    • 2 Proxy(代理)的设置
    • 3 Timeout 设置
    • 4 使用 HTTP 的 PUT 和 DELETE 方法
      http协议有六种请求方法,get,head,put,delete,post,options
    • 5 使用DebugLog

    来自

    Python爬虫入门四之Urllib库的高级用法

  • 相关阅读:
    用C#实现宽带重新拨号
    CALLBACK FUNCTION 回调函数
    编译程序 VS 解释程序
    《围城》读书笔记
    鼠标点击器
    工作与找工作的日子
    Windows 7下VS2003的查找无响应问题
    收藏几句关于程序的名言
    static知识小结
    如何定义和实现一个类的成员函数为回调函数(转)
  • 原文地址:https://www.cnblogs.com/ulrica/p/9094399.html
Copyright © 2020-2023  润新知