scrapy请求发送详解

scrapy自动发送请求

　　对start_urls列表中存储的起始url进行过请求的发送并没有通过手动实现，但是在parse函数中还是获取到了响应数据，这是因为爬虫文件中的爬虫类继承到了Spider父类中的start_requests（self）这个方法，该方法就可以对start_urls列表中的url发起请求：

1 def start_requests(self):
2         for u in self.start_urls:
3            yield scrapy.Request(url=u,callback=self.parse)

【注意】该方法默认的实现，是对起始的url发起get请求，如果想发起post请求，则需要子类重写该方法。

1 def start_requests(self):
2         #请求的url
3         post_url = 'http://fanyi.baidu.com/sug'
4         # post请求参数
5         formdata = {
6             'kw': 'wolf',
7         }
8         # 发送post请求
9         yield scrapy.FormRequest(url=post_url, formdata=formdata, callback=self.parse)

手动对需要获取的内容的url发起请求　　

1 #手动发起get请求，url指定，callback指定回调解析函数（可自定义），meta可以传递参数，封装在request中以便回调解析函数使用（request.item）
2 yield scrapy.Request(url=url,callback=self.parse1,meta={})
3 #手动发起post请求：formdata为请求参数，callback指定回调解析函数（可自定义），meta可以传递参数，封装在request中
4 yield scrapy.FormRequest(url=url,formdata=formdata, callback=self.parse2，meta={})

在请求中，cookie的处理是scrapy自动封装好的。

相关阅读:
log4j使用教程
（POI）Excel格式转Html格式
log4j2使用教程
Spring AOP 面向切面编程入门
C# 标准事件模式
1Angular的MVC和作用域
3Angular的模块化
2Angular的双向数据绑定(MVVM)
5手动初始化Angular的模块与控制器
python读取 UCS2 little endian(utf16le) 格式的文件

原文地址：https://www.cnblogs.com/open-yang/p/11330098.html