• Python标准库 urllib


    urllib是python的一个获取url的模块。它用urlopen函数的形式提供了一个非常简洁的接口。这使得用各种各样的协议获取url成为可能。它同时 也提供了一个稍微复杂的接口来处理常见的状况-如基本的认证,cookies,代理,等等。这些都是由叫做opener和handler的对象来处理的。

    urllib


    import urllib
    s
    = urllib.urlopen('http://tieba.baidu.com/p/3606519228')
    print s.read() #将会打印出整个文件的html源代码

    s.readline() #打印Html代码的第一行
    s.getcode() #返回Http状态码。如果是http请求,200请求成功完成;404网址未找到
    s.info() #返回一个httplib.HTTPMessage对象,表示远程服务器返回的头信息
    s.geturl() #返回请求的url
    >>> s = urllib.urlopen('http://www.alwme.com/')
    >>> byte = s.read()
    >>> print("从 %s 上获取了 %s 字节") % (s.geturl(),len(byte))
    从 http://alwme.com/ 上获取了 26834 字节

    urlretrieve方法将url定位到的html文件下载到你本地的硬盘中,如果不指定filename,则会存为临时文件。

    urlretrieve() 返回一个二元组

    临时存放:

    >>> filename = urllib.urlretrieve('http://www.alwme.com/')
    >>> type(filename)
    <type 'tuple'>
    >>> print filename
    ('/tmp/tmpaOdE2g', <httplib.HTTPMessage instance at 0x7f1b021e8680>)

    存为本地文件:

    >>> filename = urllib.urlretrieve('http://www.alwme.com/',filename='/home/zhg/temptest/alwme.html')
    >>> type(filename)
    <type 'tuple'>
    >>> print filename
    ('/home/zhg/temptest/alwme.html', <httplib.HTTPMessage instance at 0x7f1b021e8a28>)
    urllib.urlcleanup()   #清除由于urllib.urlretrieve()所产生的缓存
  • 相关阅读:
    Cocos2d-x win7下 android环境搭建
    cocos2dx 环境搭建 win7 +vs2012+ cocos2dx-2.1.4
    IOS 通过界面图标启动Web应用 + 全屏应用 + 添加到主屏幕
    js 魔鬼训练
    远程调试 Weinre
    PHP uniqid 高并发生成不重复唯一ID
    html5 炫酷的字幕雨
    学习建模
    jquery 购物车飞入效果
    jquery/zepto 圣诞节雪花飞扬
  • 原文地址:https://www.cnblogs.com/zhanhg/p/4378161.html
Copyright © 2020-2023  润新知