一、爬虫介绍:
-本质,
-就是想网站发送http请求,拿回一些页面/json格式数据(request)
-处理数据,解析出有用的东西(re,bs4)
-存储(mysql,文件,cvs,redis,MongoDB,es)
-分析
-cookie池和代理池
-爬视频
-正向代理和反向代理
(正向代理-代理自己,反向代理-代理服务器)
爬虫运用模块
-requests模块
-爬视频
-beautiflsoup
-requests+bs4爬新闻
-selenium
-购物网站
-request-html
-模拟登陆知乎(破解加密登陆)
-破解验证码
-mogodb
-高性能相关
-scrapy框架(爬虫界的django)
-分布式爬虫 scrapy-redis