• scrapy的demo


    流程:

    1.scrapy startproject python123demo  生产爬虫工程

    2.scrapy genspider demo python123.io 产生爬虫

    3.配置产生的spider

    4.编写item pipeline

    5.优化配置策略

    6.运行爬虫,获取网页

    文件信息:

    1.scrapy.cfg            部署Scrapy框架

    2.python123demo(文件夹)  scrapy框架用户自定义Python代码

    3.__init__            初始化脚本

    4.items.py           Items代码模块(继承类)

    5.middlewares.py         middlewares代码模块(继承类)

    6.pipelines.py          pipelines.py代码模块(继承类)

    7.settings.py         scrapy爬虫的配置文件(优化功能可以修改)

    8.spiders(文件夹)       spiders代码模块(继承类)

    9.__pycache__(文件夹)     缓存目录(无需修改)

    10.__init__.py         初始文件(无需修改)

    demo.py模块

    # -*- coding: utf-8 -*-
    import scrapy
    
    
    class DemoSpider(scrapy.Spider):
        name = 'demo'
        #allowed_domains = ['python123.io']
        start_urls = ['http://python123.io/ws/demo.html']
    
        def parse(self, response):
            fname = response.url.split('/')[-1]
            with open (fname,'wb') as f:
                f.write(response.body)
            self.log('Saved file %s.'% fname)

    start_urls方法中有yield,产生生成器,对其调用每次产生一个url链接

  • 相关阅读:
    读书笔记-js
    读书笔记-设计模式
    读书笔记-并发和多线程
    读书笔记-泛型有限通配符
    读书笔记-类和类加载器
    项目: 推送水木文章到Kindle
    项目:DoubleFaceCamera
    项目:BluetoothChat
    项目:简单记事本
    项目: 连连看
  • 原文地址:https://www.cnblogs.com/zsc329/p/9365690.html
Copyright © 2020-2023  润新知