爬虫
以下内容纯自己理解的
爬网站时要是内容能被ctrl f 找到那就是静态网页就可以直接进行爬取,
要是没有就是动态网页,要分析json等响应最后转换成python能懂得语言,解析数据 字典
scrapy框架步骤
- scrapy startproject 项目名称
- scrapy genspider 爬虫名字 域名 爬虫名字不能是数字开头的最好是英文的
- 编写爬虫(敲代码)
- 运行爬虫 scrapy crawl 爬虫名字
例子
- 创建项目框架scrapy startproject jobspider
- 创建爬虫scrapy genspider job 51job.com
- 编写爬虫
- 运行爬虫 scrapy crawl job
循环的代码提取内容
book = []
for name,author in zip(name,author):
book.append({'name': name,'author':author})
return book
scrapy crawl 项目名称(qd)-o book.csv/xml/json能拿到这些格式
setting 里面要开启好多东西 包括pipelines
PIPELINES的介绍。。。
yield的使用,数据的操作
xpath('内容提取信息的规则').extract()是获取数据 前面的是返回来的响应
另一个爬虫框架 crawlscrapy
scrapy genspider -t crawl 爬虫名字 域名
和scrapy的区别是多了一个rules规则 这里是获取响应并且回传到parse_item 就相当于parse那个函数,同时可以进行多次的rules,响应返回来再做处理
图片的便捷取出方法
image
middlewares 动态的ua
动态代理