Scrapy爬虫框架学习笔记

Scrapy运行流程大概如下：

文件说明：

scrapy.cfg 项目的配置信息，主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)

items.py 设置数据存储模板，用于结构化数据，如：Django的Model

pipelines 数据处理行为，如：一般结构化的数据持久化

settings.py 配置文件，如：递归的层数、并发数，延迟下载等

spiders 爬虫目录，如：创建文件，编写爬虫规则

注意：一般创建爬虫文件时，以网站域名命名

相关阅读:
md5() 加密password,数据库字段长度要够(eg:varchar(30)),丢失部分数据，导致登录不上
PHP $_SERVER (eg:REMOTE_ADDR)
u3000是全角空格的16进制Unicode编码。 xa0
Javascript验证Textarea中是否有值/javascript验证select是否为空(是否选择)
/[u4e00-u9fa5]/汉字的正则匹配
mysql_error() mysql_errno() 错误代码1064
javascript正则表达式验证身份证
javascript与php中的正则表达式
停课集训 12.1
bzoj1227 组合数学+bit

原文地址：https://www.cnblogs.com/shanyingwufeng/p/6673130.html