• Scrapy爬虫的基本使用


    Scrapy爬虫的使用步骤
    步骤1:创建一个工程和Spider模板
    步骤2:编写Spider
    步骤3:编写Item Pipeline
    步骤4:优化配置策略
    Scrapy爬虫的数据类型
    Request类;Response类:Item类
    Request类
    class scrapy.http.Request()
    Request对象表示一个HTTP请求
    由Spider生成,由Downloader执行
    属性和方法
    url method headers body meta copy

    callback(callable):指定一个回调函数,该回调函数以这个request的response作为第一个参数。如果未指定callback,则默认使用spider的parse()方法。

    Response类
    class scrapy.http.Response()
    Response对象表示一个HTTP响应
    由Downloader生成,由Spider处理 
    属性和方法
     
    Item类
    class scrapy.item.Item()
    Item对象表示一个从HTML页面中提取的信息内容
    由Spider生成,由Item Pipeline处理
    Item类似字典类型,可以按照字典类型操作
    Scrapy爬虫提取信息的方法
    Scrapy爬虫支持多种HTML信息提取方法
    Beautiful Soup
    lxml
    re
    XPath Selector
    CSS Selector
    CSS Selector的基本使用 

     

  • 相关阅读:
    浅析 KMP
    【GOJ 3049】玩具
    较详细的gdb入门教程
    【GOJ 2963】记者
    【GOJ 2961】数数
    GF OIer's Talk 维护笔记
    Linux 中 UFW 的使用
    开源是什么?能吃吗?
    个人介绍
    NOIP2020 爆零记
  • 原文地址:https://www.cnblogs.com/tingtin/p/13129371.html
Copyright © 2020-2023  润新知