今天要聊的是封ip对爬虫的影响。我认为封ip能拒绝一部分网络请求,减轻服务器的压力,但是如果要是建立一个好的ip池,封对爬虫的影响不大。
爬取国内一个拍卖公司的网站,刚开始用多进程下载,每分钟能爬取 1000个页面,后来不知怎么地,他封ip了,于是就去购买爬虫ip,建立自己的代理池,
仅仅维护了二十个ip,也是用多进程去下载,下载速度是每分钟450个,因为这些ip的质量都还不错,有效期只有一分钟,所以很慢封住。如果ip很多的话,
服务器封ip已经失去了意义。
今天要聊的是封ip对爬虫的影响。我认为封ip能拒绝一部分网络请求,减轻服务器的压力,但是如果要是建立一个好的ip池,封对爬虫的影响不大。
爬取国内一个拍卖公司的网站,刚开始用多进程下载,每分钟能爬取 1000个页面,后来不知怎么地,他封ip了,于是就去购买爬虫ip,建立自己的代理池,
仅仅维护了二十个ip,也是用多进程去下载,下载速度是每分钟450个,因为这些ip的质量都还不错,有效期只有一分钟,所以很慢封住。如果ip很多的话,
服务器封ip已经失去了意义。