• 爬虫流程


    整个爬虫流程
        1、scrapy crawl chouti --nolog
        
        2、找到 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 配置并实例化调试器对象
            - 执行Scheduler.from_crawler
            - 执行Scheduler.from_settings
                -读取配置文件:
                    SCHEDULER_PERSIST            # 是否在关闭时候保留原来的调度器和去重记录,True=保留,False=清空
                    SCHEDULER_FLUSH_ON_START     # 是否在开始之前清空 调度器和去重记录,True=清空,False=不清空
                    SCHEDULER_IDLE_BEFORE_CLOSE  # 去调度器中获取数据时,如果为空,最多等待时间(最后没数据,未获取到) 
                -继续读取配置文件:
                    SCHEDULER_QUEUE_KEY = '%(spider)s:requests'     # 调度器中请求存放在redis中的key
                    SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue' # 默认使用优先级队列(默认),其他:PriorityQueue(有序集合),
                                                                                 FifoQueue(列表)、LifoQueue(列表)
                    SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'  # 去重规则,在redis中保存时对应的key
                    SCHEDULER_DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" 
                    SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"  # 对保存到redis中的数据进行序列化,默认使用pickle 
                -再继续读取配置文件:
                    # REDIS_HOST = 'localhost'     # 主机名
                    # REDIS_PORT = 6379            # 端口
                    # REDIS_PARAMS  = {}           # Redis连接参数 默认:REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,})
                    # REDIS_ENCODING = "utf-8"     # redis编码类型
            - 实例化Scheduler对象
        
        3、爬虫开始执行起始URL
            - 调用 scheduler.enqueue_request方法
                    def enqueue_request(self, request):
                        # 请求是否需要过滤               #去重规则中是否已经有(是否已经访问过)
                        if not request.dont_filter and self.df.request_seen(request):
                            self.df.log(request, self.spider)
                            return False  # 已经访问过就不要再访问了
                        if self.stats:
                            self.stats.inc_value('scheduler/enqueued/redis', spider=self.spider)
                        self.queue.push(request) # 未访问过就加到队列里面去等调试器来调用 
                        return True
        4、下载器去调度器中获取任务, 去下载
            -调用 scheduler.next_requests()
                    def next_request(self):
                        block_pop_timeout = self.idle_before_close
                        request = self.queue.pop(block_pop_timeout)
                        if request and self.stats:
                            self.stats.inc_value('scheduler/dequeued/redis', spider=self.spider)
                        return request
  • 相关阅读:
    codeforces 794 C. Naming Company(贪心)
    51nod 1020 逆序排列(dp,递推)
    hdu 4081 Qin Shi Huang's National Road System(次小生成树prim)
    codeforces 799 D. Field expansion(dfs+思维剪枝)
    codeforces 799 C. Fountains(二分+思维)
    codeforces 509 D. Restoring Numbers(数学+构造)
    codeforces 509 E. Pretty Song(前缀和+前缀和的前缀和)
    SpringMVC Spring MyBatis 框架整合 Annotation MavenProject
    Struts2 Spring Hibernate 框架整合 Annotation MavenProject
    Maven jar 包支持查询地址
  • 原文地址:https://www.cnblogs.com/xiongfanyong/p/13173633.html
Copyright © 2020-2023  润新知