beautiful Soup实现抓取图片素材

beautiful Soup实现抓取图片素材
用Python写了一个简单的爬虫，实现抓取图片素材,源代码可以查看我的GitHub：https://github.com/corolcorona/spider_demo

1.抓取图片链接：http://sc.chinaz.com/tupian/fengyetupian.html

选择查看源代码，需要注意的是图片路径，也就是我们要抓取的内容，可以看到每个div标签下包含一个图片，alt是图片的描述，src2为图片的路径

2.新建一个Python项目

首先我用的环境是Mac，关于Mac下怎样新建一个Python项目，可以参考：http://www.cnblogs.com/corolcorona/p/6678197.html

3.安装Python库

有用到2个库，1个是urllib2（不需要安装）用于抓取URL，1个是BeautifulSoup，用于解析抓取下来的HTML

关于安装BeautifulSoup，可以参考：http://www.cnblogs.com/corolcorona/p/6667698.html

4.写代码
```
import urllib2
import urllib
import os
from BeautifulSoup import BeautifulSoup
def getAllImageLink():
    html = urllib2.urlopen('http://sc.chinaz.com/tupian/fengyetupian.html').read()
    soup = BeautifulSoup(html)

    liResult = soup.findAll('div',attrs={"class":"box picblock col3"})
    print len(liResult)

    for li in liResult:
        imageEntityArray = li.findAll('img')
        for image in imageEntityArray:
            link = image.get('src2')
            imageName = image.get('alt')
            filesavepath = '/Users/corolcorona/desktop/picture/%s.jpg' % imageName
            urllib.urlretrieve(link,filesavepath)


if __name__ == '__main__':
    getAllImageLink()
```
urllib2.urlopen方法抓取了网页的HTML

BeautifulSoup.findAll方法解析了抓取下来的HTML

urllib.urlretrieve方法保存到指定路径

5.可以增加一个循环抓取下一页的数据
相关阅读:
122.CSS书写顺序及其好处
 120.节流和防抖，Vue中如何添加节流和防抖
 119.css如何使图片固定为正方形
 112.前端css优先级
 vscode设置格式化单引号
 113.CSS怪象记录
 116.vue : 无法加载文件 C:UsersAdministratorAppDataRoaming pmvue.ps1，因为在此系统上禁止运行脚本。
距离不是一个连续的物理量（Distance is not a continuous physical quantity）
南七学校信息
 RedisTemplate 序列化问题
原文地址：https://www.cnblogs.com/corolcorona/p/6721983.html