• crawlSpider


    crawlSpider 作用于网站上有下一页和上一页的标签的内容,然后规则相同的网站进行爬取的效果

      启动命令 :

        1、创建项目文件

          scrapy startproject 项目名称

        2、cd 项目文件

        3、创建爬虫

          scrapy genspider -t crawl 爬虫名称 域名

      语句作用:

        1、link = LinkExtractor(allow=r'Items/')

        link是链接提取器,根据一定规则提取某类链接

        allow:表示的就是链接提取器提取链接的规则(这里面的规则是正则表达式)

        2、

        rules = (
          Rule(link, callback='parse_item', follow=False),
            )
       Rule是规则解析器,将链接提取器提取到的链接对应的页面数据进行指定形式的解析
       follow 是让链接提取器 继续作用到链接提取器提取到的链接所对应的页面中
          参数:
            False 不作用
            True 作用
      callback 回调函数,里面写link携带的内容的解析

     其余内容:
      与scrapy内容一致,因为crawlSpider就是Spider的一个子类,所以很多功能都是与Spider是一样的,所以大家熟练使用Spider,上手crawlSpider就很容易了
    
    
     
  • 相关阅读:
    OpenEuler下OpenSSL的安装
    《Unix/Linux系统编程》第四章学习笔记
    缓冲区溢出实验
    2.3.1测试
    鲲鹏服务器测试
    第六章学习笔记(20191213兰毅达)
    第五章学习笔记(20191213兰毅达)
    stat命令的实现-mysate(20191213兰毅达)
    反汇编测试(20191213兰毅达)
    OpenEuler树莓派基础实验
  • 原文地址:https://www.cnblogs.com/ifiwant/p/11756727.html
Copyright © 2020-2023  润新知