• AotucCrawler 快速爬取图片


    AotucCrawler 快速爬取图片

    今天介绍一款自动化爬取图片项目。

    GitHub: https://github.com/YoongiKim/AutoCrawler

    Google, Naver multiprocess image web crawler (Selenium)

    关键字

    • 爬虫网站:Google、Naver (美、韩两大搜索引擎)
    • 运行方式:Multiprocess(多进程)
    • 爬取格式:image (图片)
    • 基于自动化工具:Selenium (不解释)

    如何使用

    1. Git克隆AutoCrawler项目到本地

    2. 自行安装 Chrome 浏览器

    3. 安装依赖

    > pip -r requirements.txt
    
    • certifi: 包含了很多可信任知名公司的证书/公钥。
    • chardet:提供自动检测字符编码的功能。
    • idna: 提供"对于RFC5891中定义的IDNA协议(Internationalised Domain Names in Applications)的支持"。
    • requests: 依赖于上面三个基础库,他主要用于根据图片链接下载图片。
    • selenium: 用于启动浏览器,爬取图片链接。
    • webdriver-manager: 用来管理selenium浏览器驱动的项目。

    仔细分析别人项目,不管是源码还是依赖库都会有收获。webdriver-manager 就是我发现的一个宝藏项目,它简化的浏览器驱动的管理。

    1. 打开keywords.txt文件,编写爬取的关键字。
    cat
    dog
    
    1. 运行main.py 文件
    > python main.py
    

    参数说明:

    --skip true:如果下载的关键字已经存在,是否跳过关键字,重新下载时需要设置。

    --threads 4: 下载使用线程数量

    --google true: 从google.com 下载。

    --naver true: 从naver.com 下载。

    --full false: 下载全分辨率图像而不是缩略图 (慢)。

    --face false: Face search mode。

    --no_gui auto: 使用 GUI 模式. (headless模式) 全分辨率模式可以加速, 但是缩略图模式不稳定。 默认auto模式,如果full=false 默认使用使用GUI,如果full=true默认Headless模式。(可用于docker linux系统)。

    --limit 0: 设置最大图片下载范围。 (0: 无限制)

    --proxy-list: 逗号分隔的代理列表,如: socks://127.0.0.1:1080, http://127.0.0.1:1081,每个线程从列表中随即选择一个。

    例如:

    > python main.py --threads 2 --google true  --naver false --full false --limit 50
    

    1. 爬取的图片保存于 downloads/ 目录。

    小结

    1. 因为使用的是Google网站,没有梯子的同学有点郁闷。项目本身并不复杂,两个python文件加一起不到1000行代码,我们完全可以花点时间替换为国内可访问的搜索引擎。

    2. 下载图片只是为了欣赏猫猫狗狗吗?当然不是,我们可用下载的图片训练 AI。

  • 相关阅读:
    5. Mybatis UPDATE更新,DELETE删除
    3. Mybatis Insert
    4. selectKey语句属性配置细节
    2. Mybatis Select
    uoj#282. 长度测量鸡(构造)
    uoj#276. 【清华集训2016】汽水(分数规划+点分治)
    uoj#275. 【清华集训2016】组合数问题(数位dp)
    uoj#274. 【清华集训2016】温暖会指引我们前行(LCT)
    uoj#273. 【清华集训2016】你的生命已如风中残烛(组合数学)
    uoj#272. 【清华集训2016】石家庄的工人阶级队伍比较坚强(矩阵+三维FWT)
  • 原文地址:https://www.cnblogs.com/fnng/p/15605386.html
Copyright © 2020-2023  润新知