python爬虫

爬虫

以下内容纯自己理解的

爬网站时要是内容能被ctrl f 找到那就是静态网页就可以直接进行爬取，
要是没有就是动态网页，要分析json等响应最后转换成python能懂得语言，解析数据字典

scrapy框架步骤

例子

循环的代码提取内容

book = []
for name,author in zip(name,author):
book.append({'name': name,'author':author})
return book

scrapy crawl 项目名称（qd）-o book.csv/xml/json能拿到这些格式

setting 里面要开启好多东西包括pipelines
PIPELINES的介绍。。。
yield的使用，数据的操作

xpath('内容提取信息的规则').extract（）是获取数据前面的是返回来的响应

另一个爬虫框架 crawlscrapy
scrapy genspider -t crawl 爬虫名字域名

和scrapy的区别是多了一个rules规则这里是获取响应并且回传到parse_item 就相当于parse那个函数，同时可以进行多次的rules，响应返回来再做处理

图片的便捷取出方法
image

middlewares 动态的ua
动态代理

相关阅读:
10个强大的Apache开源模块
Flume日志收集（转载）
hbase安装配置（整合到hadoop）
Hadoop与HBase兼容版本汇总
关于Mysql Proxy LUA实现Mysql读写分离
Redis发布了集群版3.0.0 beta
Spring MVC 学习之 400 错误
Mahout安装（Hadoop 1.2.1 版本）
【Android】性能优化
【Android】asynchronous http client

原文地址：https://www.cnblogs.com/wkjava/p/12860216.html