• python一个简单的爬虫测试


    之前稍微学了一点python,后来一直都没用,今天稍微做一个小爬虫试一试。。

    参考了:

    http://www.cnblogs.com/fnng/p/3576154.html

    太久没用了,都忘记pycharm编译的时候要选文件。。我还纳闷怎么一直报错。。怎么练hello world都是不能run。。无语。。

    贴一下今天实验的代码好了。

     1 #coding=utf-8
     2 import urllib
     3 import re
     4 
     5 def getHtml(url):
     6     page = urllib.urlopen(url)
     7     html = page.read()
     8     return html
     9 def getImg(html):
    10     reg=r'src="(.+?.jpg)" ></div><br>'
    11     imgre=re.compile(reg)
    12     imgList=re.findall(imgre,html)
    13     x=0
    14     for imgurl in imgList:
    15         urllib.urlretrieve(imgurl,'%s.jpg'%x)
    16         x+=1
    17 
    18 html = getHtml("https://tieba.baidu.com/p/5099605942?see_lz=1")
    19 
    20 print getImg(html)

    随便抓了炉石传说贴吧里一个直播开包的帖子的图片。。

    getHtml()函数抓取并复制一个网页的源码

    getImg()函数通过正则表达式抓取源码中图片的代码,然后保存数组中,然后输出。

    正则表达式还学要好好学一下。。

    今天只是做一个小小的test,回忆一下。。

  • 相关阅读:
    css基础面试题
    hack-checkbox
    装饰性属性
    【CF809E】Surprise me!
    [SCOI2012]奇怪的游戏
    [HAOI2018]奇怪的背包
    CF1139D Steps to One
    [CTSC2018]假面
    写在省选前
    [SDOI2015]寻宝游戏
  • 原文地址:https://www.cnblogs.com/weedboy/p/6832662.html
Copyright © 2020-2023  润新知