• 爬虫_糗事百科(scrapy)


    糗事百科scrapy爬虫笔记

    1.response是一个'scrapy.http.response.html.HtmlResponse'对象,可以执行xpath,css语法来提取数据

    2.提取出来的数据,是一个'Selector'或者是一个'SelectorList'对象,如果想要获取其中的字符串,那么应该执行'getall'或者'get'方法

    3.getall方法,获取'Selector'中的所有文本,返回的是一个列表

    4.get方法,获取的是'Selector'中的第一个文本,返回的是一个str类型

    5.如果数据解析回来,要传给pipelines处理,那么可以使用'yield'来返回;如果不使用yield,则要创建一个列表存储数据,最后返回这个列表

    6.item:建议在'items.py'中定义好模型,以后就不要使用字典

    7.pipelines:这个是专门用来存储数据的,其中有三个方法常用:

        'open_spider(self, spider)':当爬虫打开时执行

        'process_item(self, item, spider)':当爬虫有item传过来的时候会被调用

        'close_spider(self, spider)':当爬虫关闭的时候调用

        要激活pipelines,在'settings.py'  68行

    代码地址 

  • 相关阅读:
    设计模式 之 单例模式
    leetcode 69 x 的平方根 牛顿迭代法
    leetcode 98 验证二叉搜索树
    leetcode 54 螺旋数组
    第一篇-python入门
    python-入门
    python
    线性判别分析LDA总结
    LDA
    线性判别分析(LDA)原理
  • 原文地址:https://www.cnblogs.com/MC-Curry/p/9488401.html
Copyright © 2020-2023  润新知