• scrapy框架(1)


     

    scrapy框架

    • Scrapy框架五大组件

       
       
       
      xxxxxxxxxx
      12
       
       
       
       
      1
      【1】引擎(Engine)----------整个框架核心
      2
      【2】爬虫程序(Spider)------数据解析提取
      3
      【3】调度器(Scheduler)-----维护请求队列
      4
      【4】下载器(Downloader)----获取响应对象
      5
      【5】管道文件(Pipeline)-----数据入库处理
      6
      7
      8
      【两个中间件】
      9
          下载器中间件(Downloader Middlewares)
      10
              引擎->下载器,包装请求(随机代理等)
      11
          蜘蛛中间件(Spider Middlewares)
      12
              引擎->爬虫文件,可修改响应对象属性
       
       
    • scrapy爬虫工作流程

       
       
       
      xxxxxxxxxx
      6
       
       
       
       
      1
      【1】爬虫项目启动,由引擎向爬虫程序索要第一批要爬取的URL,交给调度器去入队列
      2
      【2】调度器处理请求后出队列,通过下载器中间件交给下载器去下载
      3
      【3】下载器得到响应对象后,通过蜘蛛中间件交给爬虫程序
      4
      【4】爬虫程序进行数据提取:
      5
          4.1) 数据交给管道文件去入库处理
      6
          4.2) 对于需要继续跟进的URL,再次交给调度器入队列,依次循环
       
       
    • scrapy常用命令

       
       
       
      xxxxxxxxxx
      6
       
       
       
       
      1
      【1】创建爬虫项目 : scrapy startproject 项目名
      2
      【2】创建爬虫文件
      3
          2.1) cd 项目文件夹
      4
          2.2) scrapy genspider 爬虫名 域名
      5
      【3】运行爬虫
      6
          scrapy crawl 爬虫名
       
       
    • scrapy项目目录结构

       
       
       
      xxxxxxxxxx
      9
       
       
       
       
      1
      Baidu                   # 项目文件夹
      2
      ├── Baidu               # 项目目录
      3
         ├── items.py        # 定义数据结构
      4
         ├── middlewares.py  # 中间件
      5
         ├── pipelines.py    # 数据处理
      6
         ├── settings.py     # 全局配置
      7
         └── spiders
      8
             ├── baidu.py    # 爬虫文件
      9
      └── scrapy.cfg          # 项目基本配置文件
       
       
    • settings.py常用变量

       
       
       
      xxxxxxxxxx
      11
       
       
       
       
      1
      【1】USER_AGENT = 'Mozilla/5.0'
      2
      【2】ROBOTSTXT_OBEY = False
      3
          是否遵循robots协议,一般我们一定要设置为False
      4
      【3】CONCURRENT_REQUESTS = 32
      5
          最大并发量,默认为16
      6
      【4】DOWNLOAD_DELAY = 0.5
      7
          下载延迟时间: 访问相邻页面的间隔时间,降低数据抓取的频率
      8
      【5】COOKIES_ENABLED = False | True
      9
          Cookie默认是禁用的,取消注释则 启用Cookie,即:True和False都是启用Cookie
      10
      【6】DEFAULT_REQUEST_HEADERS = {}
      11
          请求头,相当于requests.get(headers=headers)
       
       
    • 创建爬虫项目步骤

       
       
       
      xxxxxxxxxx
      15
       
       
       
       
      1
      【1】新建项目和爬虫文件
      2
          scrapy startproject 项目名
      3
          cd 项目文件夹
      4
          新建爬虫文件 :scrapy genspider 文件名 域名
      5
      【2】明确目标(items.py)
      6
      【3】写爬虫程序(文件名.py)
      7
      【4】管道文件(pipelines.py)
      8
      【5】全局配置(settings.py)
      9
      【6】运行爬虫
      10
          8.1) 终端: scrapy crawl 爬虫名
      11
          8.2) pycharm运行
      12
              a> 创建run.py(和scrapy.cfg文件同目录)
      13
            from scrapy import cmdline
      14
            cmdline.execute('scrapy crawl maoyan'.split())
      15
              b> 直接运行 run.py 即可
       
       

    瓜子二手车直卖网 - 一级页面

    • 目标

       
       
       
      xxxxxxxxxx
      9
       
       
       
       
      1
      【1】抓取瓜子二手车官网二手车收据(我要买车)
      2
      3
      【2】URL地址:https://www.guazi.com/bj/buy/o{}/#bread
      4
          URL规律: o1  o2  o3  o4  o5  ... ...
      5
              
      6
      【3】所抓数据
      7
          3.1) 汽车链接
      8
          3.2) 汽车名称
      9
          3.3) 汽车价格
       
       

    实现步骤

    • 步骤1 - 创建项目和爬虫文件

       
       
       
      xxxxxxxxxx
      3
       
       
       
       
      1
      scrapy startproject Car
      2
      cd Car
      3
      scrapy genspider car www.guazi.com
       
       
    • 步骤2 - 定义要爬取的数据结构

       
       
       
      xxxxxxxxxx
      8
       
       
       
       
      1
      """items.py"""
      2
      import scrapy
      3
      4
      class CarItem(scrapy.Item):
      5
          # 链接、名称、价格
      6
          url = scrapy.Field()
      7
          name = scrapy.Field()
      8
          price = scrapy.Field()
       
       
    • 步骤3 - 编写爬虫文件(代码实现1)

       
       
       
      x
       
       
       
       
      1
      """
      2
      此方法其实还是一页一页抓取,效率并没有提升,和单线程一样
      3
      4
      xpath表达式如下:
      5
      【1】基准xpath,匹配所有汽车节点对象列表
      6
          li_list = response.xpath('//ul[@class="carlist clearfix js-top"]/li')
      7
      8
      【2】遍历后每辆车信息的xpath表达式
      9
          汽车链接: './a[1]/@href'
      10
          汽车名称: './/h2[@class="t"]/text()'
      11
          汽车价格: './/div[@class="t-price"]/p/text()'
      12
      """
      13
      # -*- coding: utf-8 -*-
      14
      import scrapy
      15
      from ..items import CarItem
      16
      17
      18
      class GuaziSpider(scrapy.Spider):
      19
          # 爬虫名
      20
          name = 'car'
      21
          # 允许爬取的域名
      22
          allowed_domains = ['www.guazi.com']
      23
          # 初始的URL地址
      24
          start_urls = ['https://www.guazi.com/bj/buy/o1/#bread']
      25
          # 生成URL地址的变量
      26
          n = 1
      27
      28
          def parse(self, response):
      29
              # 基准xpath: 匹配所有汽车的节点对象列表
      30
              li_list = response.xpath('//ul[@class="carlist clearfix js-top"]/li')
      31
              # 给items.py中的 GuaziItem类 实例化
      32
              item = CarItem()
      33
              for li in li_list:
      34
                  item['url'] = li.xpath('./a[1]/@href').get()
      35
                  item['name'] = li.xpath('./a[1]/@title').get()
      36
                  item['price'] = li.xpath('.//div[@class="t-price"]/p/text()').get()
      37
      38
                  # 把抓取的数据,传递给了管道文件 pipelines.py
      39
                  yield item
      40
      41
              # 1页数据抓取完成,生成下一页的URL地址,交给调度器入队列
      42
              if self.n < 5:
      43
                  self.n += 1
      44
                  url = 'https://www.guazi.com/bj/buy/o{}/#bread'.format(self.n)
      45
                  # 把url交给调度器入队列
      46
                  yield scrapy.Request(url=url, callback=self.parse)
       
       
    • 步骤3 - 编写爬虫文件(代码实现2)

       
       
       
      xxxxxxxxxx
      33
       
       
       
       
      1
      """
      2
      重写start_requests()方法,效率极高
      3
      """
      4
      # -*- coding: utf-8 -*-
      5
      import scrapy
      6
      from ..items import CarItem
      7
      8
      class GuaziSpider(scrapy.Spider):
      9
          # 爬虫名
      10
          name = 'car2'
      11
          # 允许爬取的域名
      12
          allowed_domains = ['www.guazi.com']
      13
          # 1、去掉start_urls变量
      14
          # 2、重写 start_requests() 方法
      15
          def start_requests(self):
      16
              """生成所有要抓取的URL地址,一次性交给调度器入队列"""
      17
              for i in range(1,6):
      18
                  url = 'https://www.guazi.com/bj/buy/o{}/#bread'.format(i)
      19
                  # scrapy.Request(): 把请求交给调度器入队列
      20
                  yield scrapy.Request(url=url,callback=self.parse)
      21
      22
          def parse(self, response):
      23
              # 基准xpath: 匹配所有汽车的节点对象列表
      24
              li_list = response.xpath('//ul[@class="carlist clearfix js-top"]/li')
      25
              # 给items.py中的 GuaziItem类 实例化
      26
              item = CarItem()
      27
              for li in li_list:
      28
                  item['url'] = li.xpath('./a[1]/@href').get()
      29
                  item['name'] = li.xpath('./a[1]/@title').get()
      30
                  item['price'] = li.xpath('.//div[@class="t-price"]/p/text()').get()
      31
      32
                  # 把抓取的数据,传递给了管道文件 pipelines.py
      33
                  yield item
       
       
    • 步骤4 - 管道文件处理数据

       
       
       
      xxxxxxxxxx
      60
       
       
       
       
      1
      """
      2
      pipelines.py处理数据
      3
      1、mysql数据库建库建表
      4
      create database cardb charset utf8;
      5
      use cardb;
      6
      create table cartab(
      7
      name varchar(200),
      8
      price varchar(100),
      9
      url varchar(500)
      10
      )charset=utf8;
      11
      """
      12
      # -*- coding: utf-8 -*-
      13
      14
      # 管道1 - 从终端打印输出
      15
      class CarPipeline(object):
      16
          def process_item(self, item, spider):
      17
              print(dict(item))
      18
              return item
      19
      20
      # 管道2 - 存入MySQL数据库管道
      21
      import pymysql
      22
      from .settings import *
      23
      24
      class CarMysqlPipeline(object):
      25
          def open_spider(self,spider):
      26
              """爬虫项目启动时只执行1次,一般用于数据库连接"""
      27
              self.db = pymysql.connect(MYSQL_HOST,MYSQL_USER,MYSQL_PWD,MYSQL_DB,charset=CHARSET)
      28
              self.cursor = self.db.cursor()
      29
      30
          def process_item(self,item,spider):
      31
              """处理从爬虫文件传过来的item数据"""
      32
              ins = 'insert into guazitab values(%s,%s,%s)'
      33
              car_li = [item['name'],item['price'],item['url']]
      34
              self.cursor.execute(ins,car_li)
      35
              self.db.commit()
      36
      37
              return item
      38
      39
          def close_spider(self,spider):
      40
              """爬虫程序结束时只执行1次,一般用于数据库断开"""
      41
              self.cursor.close()
      42
              self.db.close()
      43
      44
      45
      # 管道3 - 存入MongoDB管道
      46
      import pymongo
      47
      48
      class CarMongoPipeline(object):
      49
          def open_spider(self,spider):
      50
              self.conn = pymongo.MongoClient(MONGO_HOST,MONGO_PORT)
      51
              self.db = self.conn[MONGO_DB]
      52
              self.myset = self.db[MONGO_SET]
      53
      54
          def process_item(self,item,spider):
      55
              car_dict = {
      56
                  'name' : item['name'],
      57
                  'price': item['price'],
      58
                  'url'  : item['url']
      59
              }
      60
              self.myset.insert_one(car_dict)
       
       
    • 步骤5 - 全局配置文件(settings.py)

       
       
       
      xxxxxxxxxx
      26
       
       
       
       
      1
      【1】ROBOTSTXT_OBEY = False
      2
      【2】DOWNLOAD_DELAY = 1
      3
      【3】COOKIES_ENABLED = False
      4
      【4】DEFAULT_REQUEST_HEADERS = {
      5
          "Cookie": "此处填写抓包抓取到的Cookie",
      6
          "User-Agent": "此处填写自己的User-Agent",
      7
        }
      8
      9
      【5】ITEM_PIPELINES = {
      10
           'Car.pipelines.CarPipeline': 300,
      11
           'Car.pipelines.CarMysqlPipeline': 400,
      12
           'Car.pipelines.CarMongoPipeline': 500,
      13
        }
      14
      15
      【6】定义MySQL相关变量
      16
      MYSQL_HOST = 'localhost'
      17
      MYSQL_USER = 'root'
      18
      MYSQL_PWD = '123456'
      19
      MYSQL_DB = 'guazidb'
      20
      CHARSET = 'utf8'
      21
      22
      【7】定义MongoDB相关变量
      23
      MONGO_HOST = 'localhost'
      24
      MONGO_PORT = 27017
      25
      MONGO_DB = 'guazidb'
      26
      MONGO_SET = 'guaziset'
       
       
    • 步骤6 - 运行爬虫(run.py)

       
       
       
      xxxxxxxxxx
      3
       
       
       
       
      1
      """run.py"""
      2
      from scrapy import cmdline
      3
      cmdline.execute('scrapy crawl car'.split())
       
       

    知识点汇总

    • 数据持久化 - 数据库

       
       
       
      xxxxxxxxxx
      15
       
       
       
       
      1
      【1】在setting.py中定义相关变量
      2
      【2】pipelines.py中导入settings模块
      3
      def open_spider(self,spider):
      4
      """爬虫开始执行1次,用于数据库连接"""
      5
              
      6
          def process_item(self,item,spider):
      7
              """具体处理数据"""
      8
              return item 
      9
          
      10
      def close_spider(self,spider):
      11
      """爬虫结束时执行1次,用于断开数据库连接"""   
      12
      【3】settings.py中添加此管道
      13
      ITEM_PIPELINES = {'':200}
      14
      15
      【注意】 :process_item() 函数中一定要 return item ,当前管道的process_item()的返回值会作为下一个管道 process_item()的参数
       
       
    • 数据持久化 - csv、json文件

       
       
       
      xxxxxxxxxx
      8
       
       
       
       
      1
      【1】存入csv文件
      2
          scrapy crawl car -o car.csv
      3
      
      
      4
      【2】存入json文件
      5
          scrapy crawl car -o car.json
      6
      7
      【3】注意: settings.py中设置导出编码 - 主要针对json文件
      8
          FEED_EXPORT_ENCODING = 'utf-8'
       
       
    • 节点对象.xpath('')

       
       
       
      xxxxxxxxxx
      7
       
       
       
       
      1
      【1】列表,元素为选择器 @
      2
          [
      3
              <selector xpath='xxx' data='A'>,
      4
              <selector xpath='xxx' data='B'>
      5
          ]
      6
      【2】列表.extract() :序列化列表中所有选择器为Unicode字符串 ['A','B']
      7
      【3】列表.extract_first() 或者 get() :获取列表中第1个序列化的元素(字符串) 'A'
       
       
    • 课堂练习

       
       
       
      xxxxxxxxxx
      1
       
       
       
       
      1
      【熟悉整个流程】 : 将猫眼电影案例数据抓取,存入MySQL数据库
       
       

    瓜子二手车直卖网 - 二级页面

    • 目标说明

       
       
       
      xxxxxxxxxx
      9
       
       
       
       
      1
      【1】在抓取一级页面的代码基础上升级
      2
      【2】一级页面所抓取数据(和之前一样):
      3
          2.1) 汽车链接
      4
          2.2) 汽车名称
      5
          2.3) 汽车价格
      6
      【3】二级页面所抓取数据
      7
          3.1) 行驶里程: //ul[@class="assort clearfix"]/li[2]/span/text()
      8
          3.2) 排量:    //ul[@class="assort clearfix"]/li[3]/span/text()
      9
          3.3) 变速箱:  //ul[@class="assort clearfix"]/li[4]/span/text()
       
       

    在原有项目基础上实现

    • 步骤1 - items.py

       
       
       
      xxxxxxxxxx
      15
       
       
       
       
      1
      # 添加二级页面所需抓取的数据结构
      2
      3
      import scrapy
      4
      5
      class GuaziItem(scrapy.Item):
      6
          # define the fields for your item here like:
      7
          # 一级页面: 链接、名称、价格
      8
          url = scrapy.Field()
      9
          name = scrapy.Field()
      10
          price = scrapy.Field()
      11
          # 二级页面: 时间、里程、排量、变速箱
      12
          time = scrapy.Field()
      13
          km = scrapy.Field()
      14
          disp = scrapy.Field()
      15
          trans = scrapy.Field()
       
       
    • 步骤2 - car2.py

       
       
       
      xxxxxxxxxx
      43
       
       
       
       
      1
      """
      2
      重写start_requests()方法,效率极高
      3
      """
      4
      # -*- coding: utf-8 -*-
      5
      import scrapy
      6
      from ..items import CarItem
      7
      8
      class GuaziSpider(scrapy.Spider):
      9
          # 爬虫名
      10
          name = 'car2'
      11
          # 允许爬取的域名
      12
          allowed_domains = ['www.guazi.com']
      13
          # 1、去掉start_urls变量
      14
          # 2、重写 start_requests() 方法
      15
          def start_requests(self):
      16
              """生成所有要抓取的URL地址,一次性交给调度器入队列"""
      17
              for i in range(1,6):
      18
                  url = 'https://www.guazi.com/bj/buy/o{}/#bread'.format(i)
      19
                  # scrapy.Request(): 把请求交给调度器入队列
      20
                  yield scrapy.Request(url=url,callback=self.parse)
      21
      22
          def parse(self, response):
      23
              # 基准xpath: 匹配所有汽车的节点对象列表
      24
              li_list = response.xpath('//ul[@class="carlist clearfix js-top"]/li')
      25
              # 给items.py中的 GuaziItem类 实例化
      26
              item = CarItem()
      27
              for li in li_list:
      28
                  item['url'] = 'https://www.guazi.com' + li.xpath('./a[1]/@href').get()
      29
                  item['name'] = li.xpath('./a[1]/@title').get()
      30
                  item['price'] = li.xpath('.//div[@class="t-price"]/p/text()').get()
      31
                  # Request()中meta参数: 在不同解析函数之间传递数据,item数据会随着response一起返回
      32
                  yield scrapy.Request(url=item['url'], meta={'meta_1': item}, callback=self.detail_parse)
      33
      34
          def detail_parse(self, response):
      35
              """汽车详情页的解析函数"""
      36
              # 获取上个解析函数传递过来的 meta 数据
      37
              item = response.meta['meta_1']
      38
              item['km'] = response.xpath('//ul[@class="assort clearfix"]/li[2]/span/text()').get()
      39
              item['disp'] = response.xpath('//ul[@class="assort clearfix"]/li[3]/span/text()').get()
      40
              item['trans'] = response.xpath('//ul[@class="assort clearfix"]/li[4]/span/text()').get()
      41
      42
              # 1条数据最终提取全部完成,交给管道文件处理
      43
              yield item
       
       
    • 步骤3 - pipelines.py

       
       
       
      xxxxxxxxxx
      15
       
       
       
       
      1
      # 将数据存入mongodb数据库,此处我们就不对MySQL表字段进行操作了,如有兴趣可自行完善
      2
      # MongoDB管道
      3
      import pymongo
      4
      5
      class GuaziMongoPipeline(object):
      6
          def open_spider(self,spider):
      7
              """爬虫项目启动时只执行1次,用于连接MongoDB数据库"""
      8
              self.conn = pymongo.MongoClient(MONGO_HOST,MONGO_PORT)
      9
              self.db = self.conn[MONGO_DB]
      10
              self.myset = self.db[MONGO_SET]
      11
      12
          def process_item(self,item,spider):
      13
              car_dict = dict(item)
      14
              self.myset.insert_one(car_dict)
      15
              return item
       
       
    • 步骤4 - settings.py

       
       
       
      xxxxxxxxxx
      5
       
       
       
       
      1
      # 定义MongoDB相关变量
      2
      MONGO_HOST = 'localhost'
      3
      MONGO_PORT = 27017
      4
      MONGO_DB = 'guazidb'
      5
      MONGO_SET = 'guaziset'
       
       

    盗墓笔记小说抓取 - 三级页面

    • 目标

       
       
       
      xxxxxxxxxx
      4
       
       
       
       
      1
      【1】URL地址 :http://www.daomubiji.com/
      2
      【2】要求 : 抓取目标网站中盗墓笔记所有章节的所有小说的具体内容,保存到本地文件
      3
          ./data/novel/盗墓笔记1:七星鲁王宫/七星鲁王_第一章_血尸.txt
      4
          ./data/novel/盗墓笔记1:七星鲁王宫/七星鲁王_第二章_五十年后.txt
       
       
    • 准备工作xpath

       
       
       
      xxxxxxxxxx
      13
       
       
       
       
      1
      【1】一级页面 - 大章节标题、链接:
      2
          1.1) 基准xpath匹配a节点对象列表:  '//li[contains(@id,"menu-item-20")]/a'
      3
          1.2) 大章节标题: './text()'
      4
          1.3) 大章节链接: './@href'
      5
          
      6
      【2】二级页面 - 小章节标题、链接
      7
          2.1) 基准xpath匹配article节点对象列表: '//article'
      8
          2.2) 小章节标题: './a/text()'
      9
          2.3) 小章节链接: './a/@href'
      10
          
      11
      【3】三级页面 - 小说内容
      12
          3.1) p节点列表: '//article[@class="article-content"]/p/text()'
      13
          3.2) 利用join()进行拼接: ' '.join(['p1','p2','p3',''])
       
       

    项目实现

    • 1、创建项目及爬虫文件

       
       
       
      xxxxxxxxxx
      3
       
       
       
       
      1
      scrapy startproject Daomu
      2
      cd Daomu
      3
      scrapy genspider daomu www.daomubiji.com
       
       
    • 2、定义要爬取的数据结构 - itemspy

       
       
       
      xxxxxxxxxx
      6
       
       
       
       
      1
      class DaomuItem(scrapy.Item):
      2
          # 拷问: 你的pipelines.py中需要处理哪些数据? 文件名、路径
      3
          # 文件名:小标题名称  son_title: 七星鲁王 第一章 血尸
      4
          son_title = scrapy.Field()
      5
          directory = scrapy.Field()
      6
          content = scrapy.Field()
       
       
    • 3、爬虫文件实现数据抓取 - daomu.py

       
       
       
      xxxxxxxxxx
      51
       
       
       
       
      1
      # -*- coding: utf-8 -*-
      2
      import scrapy
      3
      from ..items import DaomuItem
      4
      import os
      5
      6
      class DaomuSpider(scrapy.Spider):
      7
          name = 'daomu'
      8
          allowed_domains = ['www.daomubiji.com']
      9
          start_urls = ['http://www.daomubiji.com/']
      10
      11
          def parse(self, response):
      12
              """一级页面解析函数:提取大标题+大链接,并把大链接交给调度器入队列"""
      13
              a_list = response.xpath('//li[contains(@id,"menu-item-20")]/a')
      14
              for a in a_list:
      15
                  item = DaomuItem()
      16
                  parent_title = a.xpath('./text()').get()
      17
                  parent_url = a.xpath('./@href').get()
      18
                  item['directory'] = './novel/{}/'.format(parent_title)
      19
                  # 创建对应文件夹
      20
                  if not os.path.exists(item['directory']):
      21
                      os.makedirs(item['directory'])
      22
                  # 交给调度器入队列
      23
                  yield scrapy.Request(url=parent_url, meta={'meta_1':item}, callback=self.detail_page)
      24
      25
          # 返回了11个response,调用了这个函数
      26
          def detail_page(self, response):
      27
              """二级页面解析函数:提取小标题、小链接"""
      28
              # 把item接收
      29
              meta_1 = response.meta['meta_1']
      30
              art_list = response.xpath('//article')
      31
              for art in art_list:
      32
                  # 只要有继续交往调度器的请求,就必须新建item对象
      33
                  item = DaomuItem()
      34
                  item['son_title'] = art.xpath('./a/text()').get()
      35
                  son_url = art.xpath('./a/@href').get()
      36
                  item['directory'] = meta_1['directory']
      37
                  # 再次交给调度器入队列
      38
                  yield scrapy.Request(url=son_url, meta={'item':item}, callback=self.get_content)
      39
      40
          # 盗墓笔记1: 传过来了75个response
      41
          # 盗墓笔记2: 传过来了 n 个response
      42
          # ... ...
      43
          def get_content(self, response):
      44
              """三级页面解析函数:提取具体小说内容"""
      45
              item = response.meta['item']
      46
              # content_list: ['段落1','段落2','段落3',...]
      47
              content_list = response.xpath('//article[@class="article-content"]/p/text()').extract()
      48
              item['content'] = '
      '.join(content_list)
      49
      50
              # 至此,一条item数据全部提取完成
      51
              yield item
       
       
    • 4、管道文件实现数据处理 - pipelines.py

       
       
       
      xxxxxxxxxx
      8
       
       
       
       
      1
      class DaomuPipeline(object):
      2
          def process_item(self, item, spider):
      3
              # filename: ./novel/盗墓笔记1:七星鲁王宫/七星鲁王_第一章_血尸.txt
      4
              filename = '{}{}.txt'.format(item['directory'], item['son_title'].replace(' ', '_'))
      5
              with open(filename, 'w') as f:
      6
                  f.write(item['content'])
      7
      8
              return item
       
       
    • 5、全局配置 - setting.py

       
       
       
      xxxxxxxxxx
      10
       
       
       
       
      1
      ROBOTSTXT_OBEY = False
      2
      DOWNLOAD_DELAY = 0.5
      3
      DEFAULT_REQUEST_HEADERS = {
      4
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
      5
        'Accept-Language': 'en',
      6
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
      7
      }
      8
      ITEM_PIPELINES = {
      9
         'Daomu.pipelines.DaomuPipeline': 300,
      10
      }
       
       

    今日作业

     
     
     
    xxxxxxxxxx
    9
     
     
    1
    【1】腾讯招聘职位信息抓取(二级页面)
    2
        要求:输入职位关键字,抓取该类别下所有职位信息(到职位详情页抓取)
    3
        具体数据如下:
    4
        1.1) 职位名称
    5
        1.2) 职位地点
    6
        1.3) 职位类别
    7
        1.4) 发布时间
    8
        1.5) 工作职责
     
     
    9
        1.6) 工作要求
     
     
    python
  • 相关阅读:
    清单
    1
    s
    模块系统的演进
    改radio样式
    前端css库
    疑惑
    收藏
    事件
    社保档案
  • 原文地址:https://www.cnblogs.com/yongqi-wang/p/13667901.html
Copyright © 2020-2023  润新知