python scrapy

1、要求：python基础，python web框架的了解，web.pyflaskdjango等，爬虫框架scrapy的基础，html解析技术bsxpath等

2、设计爬虫策略

3、反爬虫处理，模拟浏览器，使用代理ip等

4、分布式爬虫 scrapy-redis，利用redis对url去重，存储并实现多台机器运行

5、数据存储一般用Mongodb，数据量少可以用mysql等

6、数据的处理：a、json与object的处理 b、字符的处理python3默认全部采用utf-8 c、对url的字符处理(处理成Unicode，urllib.parse.quote("中文")) d、对网页或请求返回的数据字符处理（encode=utf-8）

7、实时爬虫利用网络的搜索引擎，结合动态web框架，实现实时爬取搜索出的内容

代码项目：可以参考github上的项目

实现爬取的自己写了一个小项目，如需要私信

相关阅读:
java 抽象类
ClassNotFoundException: dao.impl.ActionImpl
侦听状态一直为T的处理
Duplicate entry '1' for key 'PRIMARY'(报错)
ibatis学习笔记
java中的堆、栈和常量池
servlet学习
三大排序
第一次面试？？交流
毕业季，学长，学姐们的践行

原文地址：https://www.cnblogs.com/J-Cooper/p/8763113.html