scrapy使用细节配置
一、建立项目
1、scrapy startproject 项目名字
2、进入项目:
scrapy genspider 名字 不带http的根网址
3、默认模板(或改变模板)
默认模板:class HuaSpider(scrapy.Spider):
改变模板:scapy genspider -t crwal 名字(hua2) 不带http的根网址:
(class Hua2Spider(CrawlSpider)
4、目录结构
二、setting基本设置
1、log日志输出的级别:
INFO、ERROR......
LOG_LEVEL = 'ERROR'
2、将log写到文件中(自动创建log.txt)
LOG_FILE = './log.txt'
3、robots
是否遵守各大网站的爬虫规则(robots),默认是True,为了得到我们想要的数据,设置ROBOTSTXT_OBEY为F alse: ROBOTSTXT_OBEY = False
查看各大网站的规则:根网址+/robots.txt,例如https://www.baidu.com/robots.txt
4、设置代理middlewares.py
下载中间件设置:
1) 在setting中打开以下配置
DOWNLOADER_MIDDLEWARES = {
'postproject.middlewares.PostprojectDownloaderMiddleware': 543,
}
2)在middlewares.py中添加代理
在class PostprojectDownloaderMiddleware(object):
def process_request(self, request, spider):
公开代理格式:request.meta['proxy'] ='http://ip:port'
私密代理格式:request.meta['proxy'] = 'http://username:password@ip:port'
3)回到setting,解开下载中间件DOWNLOADER_MIDDLEWARES
欢迎关注小婷儿的博客:
csdn:https://blog.csdn.net/u010986753
博客园:http://www.cnblogs.com/xxtalhr/
有问题请在博客下留言或加QQ群:483766429 或联系作者本人 QQ :87605025
OCP培训说明连接:https://mp.weixin.qq.com/s/2cymJ4xiBPtTaHu16HkiuA
OCM培训说明连接:https://mp.weixin.qq.com/s/7-R6Cz8RcJKduVv6YlAxJA
小婷儿的python正在成长中,其中还有很多不足之处,随着学习和工作的深入,会对以往的博客内容逐步改进和完善哒。
小婷儿的python正在成长中,其中还有很多不足之处,随着学习和工作的深入,会对以往的博客内容逐步改进和完善哒。
小婷儿的python正在成长中,其中还有很多不足之处,随着学习和工作的深入,会对以往的博客内容逐步改进和完善哒。
重要的事说三遍。。。。。。