• Python 爬虫使用动态切换ip防止封杀


    对于爬虫被封禁 ! 爬虫一般来说只要你的ip够多,是不容易被封的。 一些中小网站要封杀你,他的技术成本也是很高的,因为大多数网站没有vps,他们用的是虚拟空间或者是sae,bae这样的paas云。 其实就算他们不考虑seo搜索优化,用ajax渲染网页数据,我也可以用webkit浏览器组件来搞定ajax之后的数据。

    如果某个网站他就是闲的蛋疼,他就是喜欢从log里面,一行行的分析出你的ip,然后统计处频率高的网站, 那这个时候咋办?   其实方法很草比,就是用大量的主机,但是大量的主机是有了,你如果没有那么爬虫的种子量,那属于浪费资源… …  其实一个主机,多个ip是可以的。。。
    这个时候是有两种方法可以解决的,第一个是用squid绑定多个ip地址,做正向代理…. 你的程序里面维持一组连接池,就是针对这几个正向proxy做的连接池。
    正向代理和反向代理最大的区别就是,反向代理很多时候域名是固定的,而正向代理是通过一个http的代理端口,随意访问,只是在proxy端会修改http协议,去帮你访问
    如果是python,其实单纯调用socket bind绑定某个ip就可以了,但是标题的轮训是个什么概念,就是维持不同的socket bind的对象,然后你就轮吧 !   跟一些业界做专门做爬虫的人聊过,他们用的基本都是这样的技术。 

     1 import socket  
     2 import urllib2  
     3 import re  
     4 true_socket = socket.socket  
     5   
     6 ipbind='xx.xx.xxx.xx'  
     7   
     8 def bound_socket(*a, **k):  
     9     sock = true_socket(*a, **k)  
    10     sock.bind((ipbind, 0))  
    11     return sock  
    12   
    13 socket.socket = bound_socket  
    14   
    15 response = urllib2.urlopen('http://www.ip.cn')  
    16 html = response.read()  
    17 ip=re.search(r'code.(.*?)..code',html)  
    18 print ip.group(1)  

    http://stackoverflow.com/ 上也找到一些个老外给与的解决方法的思路,他是借助于urllib2的HTTPHandler来构造的出口的ip地址。

    import functools
    import httplib
    import urllib2
    class BoundHTTPHandler(urllib2.HTTPHandler):
        def __init__(self, source_address=None, debuglevel=0):
            urllib2.HTTPHandler.__init__(self, debuglevel)
            self.http_class = functools.partial(httplib.HTTPConnection,
                    source_address=source_address)
        def http_open(self, req):
            return self.do_open(self.http_class, req)
    handler = BoundHTTPHandler(source_address=("192.168.1.10", 0))
    opener = urllib2.build_opener(handler)
    urllib2.install_opener(opener)
    import functools
    import httplib
    import urllib2
     
    class BoundHTTPHandler(urllib2.HTTPHandler):
     
        def __init__(self, source_address=None, debuglevel=0):
            urllib2.HTTPHandler.__init__(self, debuglevel)
            self.http_class = functools.partial(httplib.HTTPConnection,
                    source_address=source_address)
     
        def http_open(self, req):
            return self.do_open(self.http_class, req)
     
    handler = BoundHTTPHandler(source_address=("192.168.1.10", 0))
    opener = urllib2.build_opener(handler)
    urllib2.install_opener(opener)

    那么就有一个现成的模块 netifaces  ,其实netifaces模块,就是刚才上面socket绑定ip的功能封装罢了
    地址:   https://github.com/raphdg/netifaces

    import netifaces
    netifaces.interfaces()
    netifaces.ifaddresses('lo0')
    netifaces.AF_LINK
    addrs = netifaces.ifaddresses('lo0')
    addrs[netifaces.AF_INET]
    [{'peer': '127.0.0.1', 'netmask': '255.0.0.0', 'addr': '127.0.0.1'}]
    import netifaces
    netifaces.interfaces()
    netifaces.ifaddresses('lo0')
    netifaces.AF_LINK
    addrs = netifaces.ifaddresses('lo0')
    addrs[netifaces.AF_INET]
    [{'peer': '127.0.0.1', 'netmask': '255.0.0.0', 'addr': '127.0.0.1'}]

    转载:https://my.oschina.net/snowrabbit/blog/808647

  • 相关阅读:
    如何用Python爬虫实现百度图片自动下载?
    通俗易懂的分析如何用Python实现一只小爬虫,爬取拉勾网的职位信息
    04 整合IDEA+Maven+SSM框架的高并发的商品秒杀项目之高并发优化
    03 整合IDEA+Maven+SSM框架的高并发的商品秒杀项目之web层
    selenium缺少chromedriver解决方法
    python三大神器之fabric(2.0新特性)
    Facebook ATC弱网环境搭建
    Ubuntu 安装网卡驱动
    python三大神器之virtualenv
    python三大神器之pip
  • 原文地址:https://www.cnblogs.com/waterr/p/14141514.html
Copyright © 2020-2023  润新知