• scrapy的核心组件,post请求,日志、请求参数,中间件的UA池和selenium的应用


    一.scrapy的核心组件

    五大核心组件工作流程:

    引擎(Scrapy)

      用来处理整个系统的数据流处理, 触发事务(框架核心)

    调度器(Scheduler)

      用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

    下载器(Downloader)

      用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)

    爬虫(Spiders)

      爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面

    项目管道(Pipeline)

      负责处理爬虫从网页中抽取的实体,主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后,将被发送到项目管道,并经过几个特定的次序处理数据。

    二.scrapy的post请求

      爬虫文件中的爬虫类继承到了Spider父类中的start_requests(self)这个方法,该方法就可以对start_urls列表中的url发起请求

      def start_requests(self):
            for u in self.start_urls:
               yield scrapy.Request(url=u,callback=self.parse)
    # -*- coding: utf-8 -*-
    import scrapy
    
    
    class PostSpider(scrapy.Spider):
        name = 'post'
        # allowed_domains = ['www.xxx.com']
        start_urls = ['https://fanyi.baidu.com/sug']
    
        def start_requests(self):
            data = {
                'kw':'dog'
            }
            for url in self.start_urls:
                yield scrapy.FormRequest(url=url,formdata=data,callback=self.parse)
    
        def parse(self, response):
            print(response.text)

    三.scrapy的日志等级和请求参数

    1.日志信息的种类

      ERROR: 一般错误

      WAENING: 警告

      INFO: 一般的信息

      DEBUG:调试信息

    2.设置日志信息输出

      在setting.py配置文件中,加入

        LOG_LEVEL = "指定日志信息种类"

        LOG_FILE = "log.txt"

    LOG_LEVEL = 'ERROR'
    #LOG_FILE = './log.txt'

    3.请求参数

    示例:爬取www.id97.com电影网,将一级页面中的电影名称,类型,评分一级二级页面中的上映时间,导演,片长进行爬取。

      爬虫文件

    import scrapy
    from moviePro.items import MovieproItem
    
    class MovieSpider(scrapy.Spider):
        name = 'movie'
        allowed_domains = ['www.id97.com']
        start_urls = ['http://www.id97.com/']
    
        def parse(self, response):
            div_list = response.xpath('//div[@class="col-xs-1-5 movie-item"]')
    
            for div in div_list:
                item = MovieproItem()
                item['name'] = div.xpath('.//h1/a/text()').extract_first()
                item['score'] = div.xpath('.//h1/em/text()').extract_first()
                #xpath(string(.))表示提取当前节点下所有子节点中的数据值(.)表示当前节点
                item['kind'] = div.xpath('.//div[@class="otherinfo"]').xpath('string(.)').extract_first()
                item['detail_url'] = div.xpath('./div/a/@href').extract_first()
                #请求二级详情页面,解析二级页面中的相应内容,通过meta参数进行Request的数据传递
                yield scrapy.Request(url=item['detail_url'],callback=self.parse_detail,meta={'item':item})
    
        def parse_detail(self,response):
            #通过response获取item
            item = response.meta['item']
            item['actor'] = response.xpath('//div[@class="row"]//table/tr[1]/a/text()').extract_first()
            item['time'] = response.xpath('//div[@class="row"]//table/tr[7]/td[2]/text()').extract_first()
            item['long'] = response.xpath('//div[@class="row"]//table/tr[8]/td[2]/text()').extract_first()
            #提交item到管道
            yield item

      items.py

    import scrapy
    
    
    class MovieproItem(scrapy.Item):
        # define the fields for your item here like:
        name = scrapy.Field()
        score = scrapy.Field()
        time = scrapy.Field()
        long = scrapy.Field()
        actor = scrapy.Field()
        kind = scrapy.Field()
        detail_url = scrapy.Field()

      管道文件

    import json
    class MovieproPipeline(object):
        def __init__(self):
            self.fp = open('data.txt','w')
        def process_item(self, item, spider):
            dic = dict(item)
            print(dic)
            json.dump(dic,self.fp,ensure_ascii=False)
            return item
        def close_spider(self,spider):
            self.fp.close()

    4.如何提高scrapy的爬取效率

    增加并发:
        默认scrapy开启的并发线程为32个,可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。
    
    降低日志级别:
        在运行scrapy时,会有大量日志信息的输出,为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写:LOG_LEVEL = ‘INFO’
    
    禁止cookie:
        如果不是真的需要cookie,则在scrapy爬取数据时可以进制cookie从而减少CPU的使用率,提升爬取效率。在配置文件中编写:COOKIES_ENABLED = False
    
    禁止重试:
        对失败的HTTP进行重新请求(重试)会减慢爬取速度,因此可以禁止重试。在配置文件中编写:RETRY_ENABLED = False
    
    减少下载超时:
        如果对一个非常慢的链接进行爬取,减少下载超时可以能让卡住的链接快速被放弃,从而提升效率。在配置文件中进行编写:DOWNLOAD_TIMEOUT = 10 超时时间为10s

    示例:爬取校花网校花图片 www.521609.com

      爬虫文件

    import scrapy
    from xiaohua.items import XiaohuaItem
    
    class XiahuaSpider(scrapy.Spider):
    
        name = 'xiaohua'
        allowed_domains = ['www.521609.com']
        start_urls = ['http://www.521609.com/daxuemeinv/']
    
        pageNum = 1
        url = 'http://www.521609.com/daxuemeinv/list8%d.html'
    
        def parse(self, response):
            li_list = response.xpath('//div[@class="index_img list_center"]/ul/li')
            for li in li_list:
                school = li.xpath('./a/img/@alt').extract_first()
                img_url = li.xpath('./a/img/@src').extract_first()
    
                item = XiaohuaItem()
                item['school'] = school
                item['img_url'] = 'http://www.521609.com' + img_url
    
                yield item
    
            if self.pageNum < 10:
                self.pageNum += 1
                url = format(self.url % self.pageNum)
                #print(url)
                yield scrapy.Request(url=url,callback=self.parse)

      items.py

    import scrapy
    
    
    class XiaohuaItem(scrapy.Item):
        # define the fields for your item here like:
        # name = scrapy.Field()
        school=scrapy.Field()
        img_url=scrapy.Field()

      管道文件

    import json
    import os
    import urllib.request
    class XiaohuaPipeline(object):
        def __init__(self):
            self.fp = None
    
        def open_spider(self,spider):
            print('开始爬虫')
            self.fp = open('./xiaohua.txt','w')
    
        def download_img(self,item):
            url = item['img_url']
            fileName = item['school']+'.jpg'
            if not os.path.exists('./xiaohualib'):
                os.mkdir('./xiaohualib')
            filepath = os.path.join('./xiaohualib',fileName)
            urllib.request.urlretrieve(url,filepath)
            print(fileName+"下载成功")
    
        def process_item(self, item, spider):
            obj = dict(item)
            json_str = json.dumps(obj,ensure_ascii=False)
            self.fp.write(json_str+'
    ')
    
            #下载图片
            self.download_img(item)
            return item
    
        def close_spider(self,spider):
            print('结束爬虫')
            self.fp.close()

      setting.py

    USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
    
    # Obey robots.txt rules
    ROBOTSTXT_OBEY = False
    
    # Configure maximum concurrent requests performed by Scrapy (default: 16)
    CONCURRENT_REQUESTS = 100
    COOKIES_ENABLED = False
    LOG_LEVEL = 'ERROR'
    RETRY_ENABLED = False
    DOWNLOAD_TIMEOUT = 3
    # Configure a delay for requests for the same website (default: 0)
    # See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay
    # See also autothrottle settings and docs
    # The download delay setting will honor only one of:
    #CONCURRENT_REQUESTS_PER_DOMAIN = 16
    #CONCURRENT_REQUESTS_PER_IP = 16
    DOWNLOAD_DELAY = 3

    参考:https://www.cnblogs.com/bobo-zhang/p/10069004.html

    四.scrapy中间件的UA池和代理池

    1.中间件

    下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件。

    作用:

      引擎将请求传递给下载器过程中, 下载中间件可以对请求进行一系列处理

      在下载器完成将Response传递给引擎中,下载中间件可以对响应进行一系列处理

    使用下载中间件处理请求,一般会对请求设置随机的User-Agent ,设置随机的代理。目的在于防止爬取网站的反爬虫策略。

    2.UA池  (User-Agent池)

    作用:

      尽可能多的将scrapy工程中的请求伪装成不同类型的浏览器身份

    操作流程:

      在下载中间件中拦截请求

      将拦截到的请求的请求头信息中的UA进行篡改伪装

      在配置文件中开启下载中间件

    from scrapy.contrib.downloadermiddleware.useragent import UserAgentMiddleware
    import random
    #UA池代码的编写(单独给UA池封装一个下载中间件的一个类)
    class RandomUserAgent(UserAgentMiddleware):
    
        def process_request(self, request, spider):
            #从列表中随机抽选出一个ua值
            ua = random.choice(user_agent_list)
            #ua值进行当前拦截到请求的ua的写入操作
            request.headers.setdefault('User-Agent',ua)
    
    
    user_agent_list = [
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 "
            "(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
            "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 "
            "(KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 "
            "(KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 "
            "(KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 "
            "(KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 "
            "(KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
            "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 "
            "(KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
            "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 "
            "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 "
            "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
            "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
            "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
            "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
            "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 "
            "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
            "(KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 "
            "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 "
            "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
    ]

    3.代理池

    作用:

      尽可能多的将scrapy工程中的请求的IP设置成不同的

    操作流程:

      在下载中间件中拦截请求

      将拦截的请求的IP修改成某一代理IP

      在配置文件中开启下载中间件

    #批量对拦截到的请求进行ip更换
    #单独封装下载中间件类
    class Proxy(object):
        def process_request(self, request, spider):
            #对拦截到请求的url进行判断(协议头到底是http还是https)
            #request.url返回值:http://www.xxx.com
            h = request.url.split(':')[0]  #请求的协议头
            if h == 'https':
                ip = random.choice(PROXY_https)
                request.meta['proxy'] = 'https://'+ip
            else:
                ip = random.choice(PROXY_http)
                request.meta['proxy'] = 'http://' + ip
    
    #可被选用的代理IP
    PROXY_http = [
        '153.180.102.104:80',
        '195.208.131.189:56055',
    ]
    PROXY_https = [
        '120.83.49.90:9000',
        '95.189.112.214:35508',
    ]

    五.scrapy中的selenium的应用

    使用流程:

      在spider的构造方法中创建一个浏览器对象(作为当前spider的一个属性)

      重写spider的一个方法closed(self.spider),在该方法中执行浏览器关闭操作

      在下载中间件的process_response方法中,通过spider参数获取浏览器对象

      在中间件的process_response中定制基于浏览器自动化的操作代码(获取动态加载出来的页面源码数据)

      实例化一个响应对象,且将page_source返回的页面源码封装到该对象中

      返回该新的响应对象

    示例:

      爬虫文件

    class WangyiSpider(RedisSpider):
        name = 'wangyi'
        #allowed_domains = ['www.xxxx.com']
        start_urls = ['https://news.163.com']
        def __init__(self):
            #实例化一个浏览器对象(实例化一次)
            self.bro = webdriver.Chrome(executable_path='/Users/bobo/Desktop/chromedriver')
    
        #必须在整个爬虫结束后,关闭浏览器
        def closed(self,spider):
            print('爬虫结束')
            self.bro.quit()

      中间件文件

    from scrapy.http import HtmlResponse    
        #参数介绍:
        #拦截到响应对象(下载器传递给Spider的响应对象)
        #request:响应对象对应的请求对象
        #response:拦截到的响应对象
        #spider:爬虫文件中对应的爬虫类的实例
        def process_response(self, request, response, spider):
            #响应对象中存储页面数据的篡改
            if request.url in['http://news.163.com/domestic/','http://news.163.com/world/','http://news.163.com/air/','http://war.163.com/']:
                spider.bro.get(url=request.url)
                js = 'window.scrollTo(0,document.body.scrollHeight)'
                spider.bro.execute_script(js)
                time.sleep(2)  #一定要给与浏览器一定的缓冲加载数据的时间
                #页面数据就是包含了动态加载出来的新闻数据对应的页面数据
                page_text = spider.bro.page_source
                #篡改响应对象
                return HtmlResponse(url=spider.bro.current_url,body=page_text,encoding='utf-8',request=request)
            else:
                return response

      配置文件

    DOWNLOADER_MIDDLEWARES = {
        'wangyiPro.middlewares.WangyiproDownloaderMiddleware': 543,
    
    }

    参考:https://www.cnblogs.com/bobo-zhang/p/10013045.html

  • 相关阅读:
    IDEA中classpath
    Java之泛型<T> T与T的用法
    反射机制
    vue mitt 解决多次触发问题
    input限制输入
    解决idea启动端口被占用
    前端压缩图片转base64
    对Bootstrap Table 表格进行封装
    vue项目本地运行
    vue项目搭建
  • 原文地址:https://www.cnblogs.com/chenxi67/p/10471503.html
Copyright © 2020-2023  润新知