scrapy_创建_调试

scrapy_创建_调试
如何创建scrapy项目？

输入命令：
```
scrapy startproject project_name
```
在当前目录下创建名字叫project_name的scrapy项目

　　命令格式：scrapy startproject 项目名

如何启动官方提供的爬虫模版？

进入project_name这个项目目录下，输入命令
```
srapy genspider blog i.cnblogs.com
```
　　命令格式：“srapy genspider 爬虫模块名域名”

如何调试scrapy项目？

在项目目录下新建一个start.py文件，写入：
```
#!/usr/bin/python3

from scrapy.cmdline import execute

if __name__ == '__main__'：
    execute(['scrapy', 'crawl', 'spider_name', '--nolog'])
```
在windows系统，会出现错误：no model win32 如何解决？
```
pip install pypiwin32
```
调试时候注意点：

       默认scrapy会读取该网页的robots协议，把遵守协议改成False

       ROBOTSTXT_OBEY = True --> False

如何进行调试？

       scrapy shell   调试网站
```
scrapy shell  http://www.cnblogs.com/2bjiujiu/
```
　　通过以下命令：
```
response
```
　　如果状态200表示获取页面成功，通过response对象进行css或xpath调试
```
response.css('#homepage1_HomePageDays_DaysList_ctl00_DayList_TitleUrl_0::text').extract()
```
```
response.xpath("//a[@id='homepage1_HomePageDays_DaysList_ctl00_DayList_TitleUrl_0']/text()").extract()
```
如何加入请求头？

　　scrapy shell -s user-agent='省略'　url
```
scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36" http://www.cnblogs.com/2bjiujiu/
```
相关阅读:
PHPNow升级PHP版本为5.3.5的方法(转)
常用Raspberry Pi周边传感器的使用教程(转)
Raspberry pi 使用python+pySerial实现串口通信(转)
树莓派相关-树莓派串口配置方法(转)
树莓派折腾---红外探测
 String.format和MessageFormat.format的对比用法
 使用FastJson从json串中根据key获取value
使用HttpClient配置代理服务器模拟浏览器发送请求调用接口测试
 gradle查看依赖关系并写入到文本文件的命令
 使用 "java -jar"命令启动jar包时报不支持的jdk版本异常
原文地址：https://www.cnblogs.com/2bjiujiu/p/7237430.html