• Scrapy入门


    Scrapy入门


    1.安装scrapy

    • linux环境下直接执行命令:
      • pip  install scrapy
    • 安装完成之后直接在控制台输入:scrapy,如不报错,则安装成功

            

    2.创建项目

    • scrapy  startproject  <project_name>
      • 这个命令可以在任何文件夹下运行,执行完毕之后会在当前目录下创建一个你的项目的名字的文件夹
      • 该文件夹的目录结构:
        • project_name
          • project_name
            • sriders
              • __init__.py
            • __init__.py
            • items.py
            • middlewares.py
            • piplines.py
            • settings.py
          • #scrapy.cfg    //它是scrapy项目的配置文件,其内定义了项目文件的配置文件路径、部署相关信息等内容。
          • #items.py    //它定义了items的数据结构,所有的items都可以在这里定义。
          • #middlewares.py    //它定义了spider middlewares和download middlewares的实现。
          • #piplines.py     //它定义item pipline的实现,所有的item pipline的实现都可以放在这里。
          • #settings.py    //定义项目的全局配置

        

    3.创建spider

    • 在scrapy.cfg的同级目录下执行命令:
      • scrapy  genspider  <spider_name>  <project_start_url>
      • 执行完毕之后会在spiders的目录下生成一个<spider_name>.py的文件

        

    4.实际创建

    1. scrapy  startproject  books
    2. cd books
    3. scrapy  genspider  quanshu  quanshuwang.com
    4. cd  books/scrapy
    5. cat  quanshu.py
    6.  1 # -*- coding: utf-8 -*-
       2 import scrapy
       3 
       4 
       5 class QuanshuSpider(scrapy.Spider):
       6     name = 'quanshu'
       7     allowed_domains = ['quanshuwang.com']
       8     start_urls = ['http://quanshuwang.com/']
       9 
      10     def parse(self, response):
      11         pass

           该文件里面有个<project_name>的类,该类继承自scrapy.Spider

        name:该爬虫的名字,有且唯一,用于区别不同的爬虫和启动项目

        allowed_domains:爬虫允许访问的域名

        start_url:爬虫其实的url

        parse方法:爬虫启动的时候,会默认调用parse,该方法主要用于对网页的解析。该方法有一个response参数,该参数为访问的url的结果对象。可以在parse方法中print(dir(response))来了解该对象的方法和属性。

    5.启动爬虫

      scrapy  crawl  <project_name>[类的name属性]

  • 相关阅读:
    egg-sequelize-ts 插件
    从理解webpack到配置
    jstree 学习
    谈谈对原型链的理解
    CSS 水平居中/布局 垂直居中 (月经问题)
    图片自然翻转并切换图片
    Javascript 高阶函数等
    django中related_name的作用和用法
    pycharm新建django项目,报错
    关于pycharm 使用sqlite创建数据库表,创建模型后,表找不到或者不显示。
  • 原文地址:https://www.cnblogs.com/ivy-blogs/p/10884047.html
Copyright © 2020-2023  润新知