scrapy shell 遇到的问题

有时候用scrapy shell来调试很方便,但是有些网站有防爬虫机制,所以使用scrapy shell会返回403,比如下面

有两种解决方法:

　　(1):第一种方法是在命令上加上-s USER_AGENT='Mozilla/5.0'

　　第一种方法最简单但是每次操作都要加上去很繁琐,第二种方法比较好。

　　(2):第二种方法是修改scrapy的user-agent默认值

　　找到python的:安装目录下的default_settings.py文件,比如我的C:Users923AppDataLocalProgramsPythonPython37Libsite-packagesscrapysettings　　

　　把

　　　　USER_AGENT = 'Scrapy/%s (+http://scrapy.org)' % import_module('scrapy').__version__

　　改为

　　　　USER_AGENT = 'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0'

　　使用shell再次，发现已经可以正常访问html不会在出现403错误了。

相关阅读:
FFT最新卡常研究
NOI2019赛前两周被吊打记录
【NOI2019模拟2019.7.1】为了部落（生成森林计数，动态规划）
【NOI2019模拟2019.7.1】三格骨牌（轮廓线dp转杨图上钩子定理）
Pytorch学习之源码理解：pytorch/examples/mnists
[转载] ReLU和BN层简析
Python的argparse模块的使用
[转载]Pytorch中nn.Linear module的理解
Pytorch中nn.Dropout2d的作用
Pytorch中randn和rand函数的用法

原文地址：https://www.cnblogs.com/573734817pc/p/11133009.html