流程:
1.scrapy startproject python123demo 生产爬虫工程
2.scrapy genspider demo python123.io 产生爬虫
3.配置产生的spider
4.编写item pipeline
5.优化配置策略
6.运行爬虫,获取网页
文件信息:
1.scrapy.cfg 部署Scrapy框架
2.python123demo(文件夹) scrapy框架用户自定义Python代码
3.__init__ 初始化脚本
4.items.py Items代码模块(继承类)
5.middlewares.py middlewares代码模块(继承类)
6.pipelines.py pipelines.py代码模块(继承类)
7.settings.py scrapy爬虫的配置文件(优化功能可以修改)
8.spiders(文件夹) spiders代码模块(继承类)
9.__pycache__(文件夹) 缓存目录(无需修改)
10.__init__.py 初始文件(无需修改)
demo.py模块
# -*- coding: utf-8 -*- import scrapy class DemoSpider(scrapy.Spider): name = 'demo' #allowed_domains = ['python123.io'] start_urls = ['http://python123.io/ws/demo.html'] def parse(self, response): fname = response.url.split('/')[-1] with open (fname,'wb') as f: f.write(response.body) self.log('Saved file %s.'% fname)
start_urls方法中有yield,产生生成器,对其调用每次产生一个url链接