• record-12 爬虫程序练习


    #__author: hasee
    #date:  2018/1/20
    
    from urllib.request import urlopen, urlretrieve
    from urllib.parse import quote
    from re import findall
    
    url = 'http://www.cdtest.cn/'  # 确定URL
    f = urlopen(url)  # 利用urlopen()打开URL资源文件
    content = f.read()  # 读取文件内容
    # content=content.decode(encoding='utf-8') #将读取到的内容解码处理,转换成字符串
    print(content)
    f.close()  # 关闭文件
    
    # 正则表达式中|符号表示或者
    url_list = findall(r'img/.*png|img/.*jpg', content)  # 利用正则表达式获取网页中所有png/jpg的图片URL,并存放在列表中
    print(url_list)
    for u in url_list:  # 循环遍历列表,依次完成列表中每一个url的处理
        url1 = url + quote(u)  # 网页中图片URL不完整,需要补充'http://www.cdtest.cn/',并且因为URL中包含中文,利用quote方法进行编码处理
    
        u1 = u.split('/')  # 提取图片URL中最后的图片名称,在下载时作为本地保存名称使用
        path1 = 'e:\test\' + u1[-1]  # 设置下载时,本地保存路径
    
        urlretrieve(url1, path1)  # 开始完成当前url1所标识图片资源的下载
    

      

  • 相关阅读:
    python第三方库requests详解
    英语单词Permissive
    Linux系统重要文件(三)
    Linux系统重要文件(二)
    Linux系统重要文件
    操作系统挂载
    Linux系统基础优化
    系统软件安装
    MYSQL二进制安装
    MySQL基本操作
  • 原文地址:https://www.cnblogs.com/minkillmax/p/8319840.html
Copyright © 2020-2023  润新知