# 爬虫网络请求方式:urllib(模块), requests(库), scrapy, pyspider(框架)
# 爬虫数据提取方式:正则表达式, bs4, lxml, xpath, css
哪种方法都可以用,可以根据实际情况选用方式
爬取静态页面
比较好爬取,一般的措施是cookie中登录信息,或者cookie中有页面的跳转信息
ip的限制
针对措施
GitHub中搜索proxy_pool-master CookiesPool-master
第一个是代理池 会从代理网站上爬取可用的ip,使用方法也说明了
第二个是cookies池
根据情况使用相应的策略
验证码方案
截图验证码,将图片传到云打码上,会返回答案 尽量不要出现验证码
爬取动态网页
json接口数据 直接访问接口
selenium 自动化测试框架