• 【Python爬虫程序】抓取MM131美女图片,并将这些图片下载到本地指定文件夹。


    一、项目名称

    抓取MM131美女写真图片,并将这些图片下载到本地指定文件夹。

    共有6种类型的美女图片:

    1. 性感美女

    2. 清纯美眉

    3. 美女校花

    4. 性感车模

    5. 旗袍美女

    6. 明星写真

    抓取后的效果图如下,每个图集是一个独立的文件夹:

    图片保存的文件夹

    二、项目目的

    抓取美女写真图片,能有啥目的,纯粹是为了技术,顺便养养眼,不行吗?

    另外,可以分析不同图片类型的图集数量、图片数量,以此来判断什么类型的图片最受欢迎。

    三、项目要求

    1. 成功抓取到图片,并将图片进行重命名后保存到指定的文件夹,文件夹使用图集的名称

    2. 开始下载后,要有下载进度的提示,当前已下载图集数、剩余图集数、正在下载第几张图片,类似这样:

    下载提示

    1. 也可以增加一些其他功能,例如,请求多长时间获取不到结果时,该怎么办,这个我没写,留给大家自由发挥了

    2. 分析不同图片类型的图集数量、图片数量,以此来判断什么类型的图片最受欢迎,这个我没做,留给大家,前面会做了,这个就很简单了

    四、步骤

    声明一下,这个是我自己的思路,一定不是最好的,大家可以有更好的思路,欢迎交流。

    步骤1:写一个函数,用于获取某一个图片类型每一页的页面链接,如 清纯美眉,共31页,需要将每一页的页面链接拿到,

    要拿到每一页的链接,需要知道链接的规则,以及一共有多少页,如下图标红处,如何知道某个图片类型共有多少页呢?

    也就是怎么把 list_1_31.html 中的 31 拿到呢?

    图集链接

    步骤2:写一个函数,用于获取某一个页面的全部图集链接,如 清纯美眉第一页,拿到这个页面的所有的图集链接,

    注意看每一个图集的链接,有什么统一的规则

    图集链接

    步骤3:写一个函数,用于将某一图集的所有图片保存下来,如 清纯美眉第一个第一个图集,把这个图集的所有图片都保存下来,

    注意看每一个图集的图片链接,有什么规则

    图集链接

    步骤4:开始执行以上的函数,验证是否得到想要的结果。

    建议,仔细研究一下不同图片类型的页面链接、图集链接之间的相同点和不同点,然后构思写代码。不要一次性全部下载,在写每一个函数时,传入一个具体的链接进行测试,保证每个函数都满足要求后,再批量下载。

    五、如何使用

    1. Python3 版本

    2. 已安装程序需要的库,如 requests、BeautifulSoup、os、time

    六、版权声明

    图片版本由其官方网址持有,抓取图片仅供技术交流使用,切勿商用。

    本项目来自GitHub,由于MM131换了域名,so我更新了一下

     原文章:https://www.jianshu.com/p/e4a3bf1f95ab

    项目地址:https://github.com/HuanGeNet/grab_beautiful_girls_pictures

  • 相关阅读:
    预热buffer pool
    MySQL · 性能优化· InnoDB buffer pool flush策略漫谈
    事务并发控制
    LOAD DATA INFILE – performance case study
    隐式锁
    percona-xtrabackup安装
    mysql 表空间及索引的查看方法
    mysql用户权限
    mysql修改数据库名
    MySQL对innodb某一个表进行移动
  • 原文地址:https://www.cnblogs.com/HGNET/p/12002793.html
Copyright © 2020-2023  润新知