python scrapy爬虫框架概念介绍(个人理解总结为一张图)

python scrapy爬虫框架概念介绍(个人理解总结为一张图)

python的scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架

python和scrapy的安装就不介绍了,资料很多

这里我个人总结一下,能更加快理解scrapy和快速上手一个简单的爬虫程序

首先开始一个scrapy项目

用命令: scrapy startproject 项目名

创建出来的文件如下图:红框是我的命令,蓝框是scrapy自动创建的文件

其中各个最常用文件的用处:

mytestproject

--items.py 定义spider.py到pipelines.py中间的数据格式

--pipelines.py 处理爬取到的数据

--settings.py 配置文件,定义有几个pipelines以及他们的优先级,

--spider 爬虫目录

----spider.py 爬取哪些页面, 如何解析爬取的到的数据,整理数据返回给pipelines.py

我画了一张简单的图介绍一下各个文件之间的关系:

一个url地址对应的数据从开始爬取-->处理结果-->入库(或写文件等) 分别是在哪个文件里做的,如下图:

scrapy框架中的各个文件和数据流转大概就是这样,后面我会详细介绍下我爬取zhihu的各个文件的详细代码.
相关阅读:
7人脸识别
 1图片视频文件操作基础
 3直方图与二值化，图像梯度
 6模板匹配（人脸匹配案例）
基础习题
 碎片知识点整理
 详解：MySQL数据表损坏的正确修复方案
 前端开发：模块化 — 高效重构
 分享几个基于jQuery不错的前端相册展示插件代码
 程序员编程10年的心得和体会
原文地址：https://www.cnblogs.com/wangtcc/p/9590526.html

python scrapy爬虫框架概念介绍(个人理解总结为一张图)

首先开始一个scrapy项目

其中各个最常用文件的用处: