• Scrapy入门


    简介

    安装与使用

    安装scrapy

    键入命令即可

    $ pip install scrapy
    

    初步使用

    新建项目

    在想要创建工程的文件夹目录下面,键入命令:

    scrapy startproject projectName
    

    projectName为项目的名字

    创建一个爬虫文件

    进入工程目录当中,在spiders子目录中创建一个爬虫文件:

    scrapy genspider spiderName www.xxx.com
    

    爬虫文件解析

    import scrapy
    
    class FirstSpider(scrapy.Spider):
      name='first'
      # 允许的域名
      # 用来限定start_urls列表中那些url可以进行请求发送
      allowed_domains = ['www.xxx.com']
      # 起始的url列表
      # 该列表中存放的url会被scrapy自动进行请求的发送
      start_urls = ['http://www.xxx.com/']
    
      # 用作数据解析
      # response参数表述的是请求成功后对应的相应对象
      def parse(self, response):
        pass
    

    settings配置

    关闭robots.txt

    在settings中,scrapy默认开启了遵从robots.txt这一反爬的君子协议。
    我们在学习阶段将其关掉。

    更改 USER_AGENT

    复制浏览器中的USER_AGENT赋给USER_AGENT变量。

    执行工程

    scrapy crawl spiderName
    

    输出中有很多日志影响我们查找我们需要的信息,如果不打印日志,可以使用下述方式执行工程:

    # 不打印日志
    scrapy crawl spiderName --nolog
    

    然而,这样存在一个问题。也就是,当程序存在错误的时候,依然不会显示出来。
    所以,我们推荐使用下述的方式来隐藏一些不必要的日志信息:

    # 只打印错误日志
    LOG_LEVEL = 'ERROR'
    

    scrapy数据解析

    和xpath语法基本一致。

    scrapy持久化存储

    当解析到网页内容后,我们需要进行持久化操作。

    基于终端指令

    只可以将parse方法的返回值存储到本地的文本文件中。

    $ scrapy crawl xxx -o filePath
    

    持久化存储对应的文本文件类型只可以为json、jsonlines、jl、csv、xml、marshal、pickle

    基于管道

    编码流程

    数据解析

    封装存储为item对象

  • 相关阅读:
    货币
    沙漏
    秋季学习总结
    三个老师
    介绍自己
    redis 的部分配置
    第二次博客作业
    第一次阅读作业
    shell_通配符
    shell_/dev/null,>和&
  • 原文地址:https://www.cnblogs.com/Gazikel/p/15909023.html
Copyright © 2020-2023  润新知