scrapy （四）基本配置

scrapy （四）基本配置

scrapy使用细节配置

一、建立项目

1、scrapy startproject 项目名字

2、进入项目：

scrapy genspider 名字不带http的根网址

3、默认模板（或改变模板）

默认模板：class HuaSpider(scrapy.Spider)：

改变模板：scapy genspider -t crwal 名字(hua2) 不带http的根网址:

(class Hua2Spider(CrawlSpider)

4、目录结构

二、setting基本设置

1、log日志输出的级别：

      INFO、ERROR......

      LOG_LEVEL = 'ERROR'

2、将log写到文件中（自动创建log.txt）

        LOG_FILE = './log.txt'

3、robots

       是否遵守各大网站的爬虫规则（robots），默认是True，为了得到我们想要的数据，设置ROBOTSTXT_OBEY为F     alse: ROBOTSTXT_OBEY = False

       查看各大网站的规则：根网址+/robots.txt，例如https://www.baidu.com/robots.txt

4、设置代理middlewares.py

下载中间件设置:

    1) 在setting中打开以下配置

DOWNLOADER_MIDDLEWARES = {

   'postproject.middlewares.PostprojectDownloaderMiddleware': 543,

}

    2）在middlewares.py中添加代理

在class PostprojectDownloaderMiddleware(object):

def process_request(self, request, spider):

公开代理格式：request.meta['proxy'] ='http://ip:port'

私密代理格式：request.meta['proxy'] = 'http://username:password@ip:port'

3）回到setting，解开下载中间件DOWNLOADER_MIDDLEWARES

欢迎关注小婷儿的博客：

csdn：https://blog.csdn.net/u010986753

博客园：http://www.cnblogs.com/xxtalhr/

有问题请在博客下留言或加QQ群：483766429 或联系作者本人 QQ ：87605025

OCP培训说明连接：https://mp.weixin.qq.com/s/2cymJ4xiBPtTaHu16HkiuA

OCM培训说明连接：https://mp.weixin.qq.com/s/7-R6Cz8RcJKduVv6YlAxJA

小婷儿的python正在成长中，其中还有很多不足之处，随着学习和工作的深入，会对以往的博客内容逐步改进和完善哒。

小婷儿的python正在成长中，其中还有很多不足之处，随着学习和工作的深入，会对以往的博客内容逐步改进和完善哒。

小婷儿的python正在成长中，其中还有很多不足之处，随着学习和工作的深入，会对以往的博客内容逐步改进和完善哒。

重要的事说三遍。。。。。。
相关阅读:
【NOIp】NOIp2015
【题解】Luogu P2899 [USACO008JAN] 手机网络树形dp
「EZEC-4.5」走方格
 ZJOI2013 K大数查询
 CF765F Souvenirs
[Vani有约会] 雨天的尾巴 /【模板】线段树合并
 中国剩余定理（CRT / EXCRT）
洛谷 P1516 青蛙的约会
 CQOI2009 叶子的染色
 CSP2019 Emiya 家今天的饭
原文地址：https://www.cnblogs.com/pythonbao/p/9169484.html

scrapy （四）基本配置

一、建立项目

1、scrapy startproject 项目名字

2、进入项目：

3、默认模板（或改变模板）

4、目录结构

二、setting基本设置

1、log日志输出的级别：

2、将log写到文件中（自动创建log.txt）

3、robots

4、设置代理middlewares.py

下载中间件设置: