• 爬虫模块儿之urllib.request


    导入方法 import  urllib.request: 

    1,urllib.request.urlopen() :打开网页
    2,urllib.request.urlretrieve(url,filename,reporthook,data)
    参数说明:
    url:外部或者本地url
    filename:指定了保存到本地的路径(如果未指定该参数,urllib会生成一个临时文件来保存数据);
    reporthook:是一个回调函数,当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。我们可以利用这个回调函数来显示当前的下载进度。
    data:指post到服务器的数据。该方法返回一个包含两个元素的元组(filename, headers),filename表示保存到本地的路径,header表示服务器的响应头。
    import urllib

    def callbackfunc(blocknum, blocksize, totalsize):

    '''回调函数

    @blocknum: 已经下载的数据块

    @blocksize: 数据块的大小

    @totalsize: 远程文件的大小

    '''

    percent = 100.0 * blocknum * blocksize / totalsize

    if percent > 100:

    percent = 100

    print "%.2f%%"% percent
    url = 'http://www.sina.com.cn'
    local = 'd:\sina.html'
    urllib.urlretrieve(url, local, callbackfunc)

  • 相关阅读:
    Java中的国际化
    springcloud介绍
    SpringMVC之请求和响应
    JAVA坦克大战系列10-高效雷达(下)
    CF920F SUM and REPLACE
    luoguP4141 消失之物
    luoguP2843 暗杀
    luoguP5521 [yLOI2019] 梅深不见冬
    CF940E Cashback
    CF1051D Bicolorings
  • 原文地址:https://www.cnblogs.com/hlan/p/6709518.html
Copyright © 2020-2023  润新知