• python爬虫学习


    import re
    import urllib.request
    import urllib
    import os

    #抓取html 页面
    def getHtml(url):
    page = urllib.request.urlopen(url)#非常简单的第三方类库的方法
    html = page.read()

    return html.decode('UTF-8')

    #从html里面获取图片
    def getImg(html):
    reg = r'src="(.+?.jpg)" pic_ext' # 要加括号,作为元组返回,抓取淘宝的图片png(先看源码中图片的地址路径)reg = r'data-lazy="(.+?.png)" '
    imgre = re.compile(reg)
    imglist = imgre.findall(html)
    x = 0
    path = 'C:/ZhiBo/assert/images'# 保存在images路径下
    if not os.path.isdir(path):
    os.makedirs(path)
    paths = path + '/img' #设置图片的名字
    for imgurl in imglist:
    urllib.request.urlretrieve(imgurl, '{}{}.jpg'.format(paths, x))
    x = x + 1


    html = getHtml("http://layerstheme.com/portfolio/html/iCart/") # 淘宝的:html = getHtml(r"http://www.taobao.com/")
    getImg(html)
  • 相关阅读:
    eclipse 提交代码至自己的github上
    今天是国庆
    我要完蛋了!!!
    C/C++知识点
    [c++]const增强
    [c++]指针作为函数参数传递的问题
    day3_JavaScript
    day2_HTML&CSS
    2017年度总结
    小游戏
  • 原文地址:https://www.cnblogs.com/enzoluo-blog/p/7462083.html
Copyright © 2020-2023  润新知