• scrapy多线程文件下载


    在爬取数据时有时候有些文件数据需要爬取下载下来使用多线程下载可以让程序跑的更快点。

    scrapy中有个扩展可以使用扩展模块来实现下载。

    在自己的spider中加入 custom_settings 

    class MytestSpider(scrapy.Spider):
        name = "mytest"
        custom_settings = {
            'EXTENSIONS': { #设在拓展
                'mymidtest.mydownutils.extension.SpiderOpenCloseLogging': 500,  
            },
            'MYEXT_ENABLED': True, #打开拓展
        }
    'mymidtest.mydownutils.extension.SpiderOpenCloseLogging'为项目路劲下的mydownuils包
    在ini函数中加入
        def __init__(self, ):
            .........
            .........
            self.myredis = operatRedis(self.name)
            self.Redis = self.myredis.get_instent()

    在要下载的时候添加

    self.myredis.add_url_filepath(self.Redis,url,filepath_all)
    url为下载url地址,filepath_all文件存储地址
    这样工具包就配置好可以下载了


    工具包地址
    github地址:https://github.com/sea1234/pyScrapyDownUtils
  • 相关阅读:
    基于javascript 上传
    mysql 分组查询
    php 遍历指定路径所有目录与文件夹
    设置Tomcat的内存
    SQL语句执行顺序
    XFire发布Webservice
    Java排序算法
    Oracle定时任务DBMS_JOB
    JAXWS发布WebService
    Mogodb基础知识和安装学习
  • 原文地址:https://www.cnblogs.com/seablog/p/7157646.html
Copyright © 2020-2023  润新知