python——爬取图片（初学）

利用python抓取网络图片的步骤是：

1、根据给定的网址获取网页源代码

2、利用正则表达式把源代码中的图片地址过滤出来

3、根据过滤出来的图片地址下载网络图片

以下是比较简单的一个抓取某一个网页的图片的实现：

# -*- coding: utf-8 -*-
import urllib
import re
def main():
  # 利用urllib2的urlopen方法，下载当前url的网页内容
  req = urllib2.urlopen('http://www.imooc.com/course/list')
  # 将网页内容存储到buf变量中
  buf = req.read()
  # 将buf中的所有内容与需要匹配的url进行比对。这里的正则表达式是根据静态网页的源码得出的，查看静态网页源码开启开发者模式，按F12即可。然后确定图片块，查看对应源码内容，找出规律，编写正则表达式。
  listurl = re.findall(r'src=.+.jpg',buf)
  i = 0
  # 将结果循环写入文件
  for url in listurl:
    f = open(str(i)+'.jpg','w')
    req = urllib2.urlopen(url[5:])
    buf1 = req.read()
    f.write(buf1)
    i+=1
if __name__ == '__main__':
  main()

这里使用的网页下载器是python自带的urllib2，然后利用正则表达式匹配，输出结果。

运行结果

相关阅读:
Java Web Action DAO Service层次理解
JSP/Servlet Web 学习笔记 DaySix —— EL表达式
JSP/Servlet Web 学习笔记 DayFive
JSP/Servlet Web 学习笔记 DayFour —— 实现一个简单的JSP/Servlet交互
JSP/Servlet Web 学习笔记 DayFour
如何快速创建百万级测试数据
公司线上虚拟机大量GC导致STW和CPU飙升--抽丝剥茧定位的过程
这10道springboot常见面试题你需要了解下
这是一篇来源于阿里内部技术论坛的文章
一文彻底弄懂如何选择抽象类还是接口

原文地址：https://www.cnblogs.com/yezishen/p/12005152.html