scrapy（一）建立一个scrapy项目

本项目实现了获取stack overflow问题，使用python语言,scrapy框架，选取mongoDB作为持久化数据库，redis做为数据缓存

1.创建一个scrapy项目

在创建的目录下执行命令：scrapy startproject 项目名

这样就创建好了一个名为stackspider的项目，创建成功后，项目会产生以下文件

常用到的：

2.使用scrapy

创建完成后已有提示，所以我们创建一个用于抓取网站的文件名为stack

我们可以通过scrapy crawl 爬虫的name 来进行运行

但是这样会报错Crawled (403) <GET > (referer: None)或者Crawled (200) <GET > (referer: None)

原因是网站的反爬虫策略，所以我们可以

1.设置代理进行执行在命令上加上-s USER_AGENT='Mozilla/5.0'

2.修改scrapy的user-agent默认值

通过第一种方法我们可以获取到网页的html

项目就搭建好了

相关阅读:
Git的使用---6. 分支管理
Git的使用---5. 工作区、暂存区和仓库
虚拟机中安装 win2012 r2 tools工具提示需要安装kb2919355
【实验】OSPF的基本配置
【实验】 OSPF和BFD联动
【实验】VRRP+链路跟踪+BFD联动
【实验】基于接口和全局DHCP
【实验】静态LACP的链路聚合
【实验】手工负载分担链路聚合
【实验】vxlan的静态配置

原文地址：https://www.cnblogs.com/corolcorona/p/6801960.html