爬虫大概了解下爬虫的

# 爬虫网络请求方式：urllib(模块), requests(库), scrapy, pyspider(框架)
# 爬虫数据提取方式：正则表达式, bs4, lxml, xpath, css
哪种方法都可以用,可以根据实际情况选用方式

爬取静态页面
　　比较好爬取,一般的措施是cookie中登录信息,或者cookie中有页面的跳转信息
　　ip的限制
针对措施
　　GitHub中搜索proxy_pool-master      CookiesPool-master
　　第一个是代理池   会从代理网站上爬取可用的ip,使用方法也说明了
　　第二个是cookies池 
　　根据情况使用相应的策略
验证码方案
　　截图验证码,将图片传到云打码上,会返回答案    尽量不要出现验证码


爬取动态网页
　　json接口数据   直接访问接口
　　selenium 自动化测试框架

相关阅读:
求最短路径的三种算法: Ford, Dijkstra和Floyd
Huffman树与编码
Logistic回归模型和Python实现
LibSVM for Python 使用
支持向量机原理
朴素贝叶斯分类器及Python实现
Http协议简介
介绍50个 WordPress 动作挂钩
决定如何开发你的WordPress主题框架
WordPress 主题框架是如何工作的

原文地址：https://www.cnblogs.com/eunuch/p/9158887.html

爬虫 大概了解下爬虫的

爬虫大概了解下爬虫的