• scrapy-redis


    一、 memcached & redis 是什么?

    软件,在内存中存取数据。
    应用场景:主要做页面缓存
    

    二、 memcached & redis有什么区别?

    内存中存储时:都是以键值对存储
    	k  === v
    	
    类型:
    	memcached: 类型单一
    		k  === "字符串"
    		
    	redis:     五大数据类型
    		k  === "字符串",数字也是以字符串方式存储
    		k  === 列表list
    		k  === 字典hash
    		k  === 集合set
    		k  === 有序集合order set()
    		
    		
    持久化:
    	memcached: 断电内存清空
    	redis:      支持持久化(定时把缓存写入硬盘中,断电后有电后自动写入缓存中)
    	但持久化耗时,性能降低
    	
    Redis只使用单核,而Memcached可以使用多核

    三、 memcached  

    安装:

    Mac安装和windows安装:pip3 install python3-memcached
    

    启动Memcached

    memcached -d -m 10    -u root -l 10.211.55.4 -p 12000 -c 256 -P /tmp/memcached.pid
     
    参数说明:
        -d 是启动一个守护进程
        -m 是分配给Memcache使用的内存数量,单位是MB
        -u 是运行Memcache的用户
        -l 是监听的服务器IP地址
        -p 是设置Memcache监听的端口,最好是1024以上的端口
        -c 选项是最大运行的并发连接数,默认是1024,按照你服务器的负载量来设定
        -P 是设置保存Memcache的pid文件
    View Code

    Memcached命令

    存储命令: set/add/replace/append/prepend/cas
    获取命令: get/gets
    其他命令: delete/stats..
    View Code

    Python操作Memcached

     1. 连接

    import memcache
    # mc = memcache.Client(['192.168.x.x:12000'], debug=True)   #上线的时候把debug修改为False
    # mc.set("k", "value")      # value是字符串类型
    # ret = mc.get('k')         # 根据k获取value值
    # print(ret)
    View Code

    2. 天生支持集群

    mc = memcache.Client([('192.168.11.81:12000',1),], debug=True)      #列表,可以连多台机器。后面数字理解为权重,权重越大客户端连接的越多
    
    # 内部算法,选择哪台服务器
    # ['192.168.x.1:12000','192.168.x.2:12000','192.168.x.2:12000','192.168.x.2:12000']
    # # 服务器个数:2
    # # 设置:key   ->  内部算法转化为 5646  -> 5646%/2   用转化的数字对连接服务器总个数取余,获取索引,从而知道从数据库获取的信息放到哪台服务器
    # # 获取:key   ->  内部算法转化为 5646  -> 5646%/2
    # mc.set("k", "value",10)        # 10为超时时间,超时后获取不了value值
    # ret = mc.get('k')
    # print(ret)
    mc.set("ct", 1000)
    v = mc.get('ct')
    print(v,type(v))
    View Code

    3. 常用操作

    add:添加一条键值对,如果已经存在的 key,重复执行add操作异常
        import memcache
    
        mc = memcache.Client(['10.211.55.4:12000'], debug=True)
        mc.add('k1', 'v1')
        # mc.add('k1', 'v2') # 报错,对已经存在的key重复添加,失败!!!
    
    
    replace:修改某个key的值,如果key不存在,则异常
        import memcache
    
        mc = memcache.Client(['10.211.55.4:12000'], debug=True)
        # 如果memcache中存在kkkk,则替换成功,否则一场
        mc.replace('kkkk','999')
    
    
    set 和 set_multi
        set         设置一个键值对,如果key不存在,则创建,如果key存在,则修改
        set_multi   设置多个键值对,如果key不存在,则创建,如果key存在,则修改
    
            import memcache
            mc = memcache.Client(['10.211.55.4:12000'], debug=True)
            mc.set('key0', 'xyp')     
            mc.set_multi({'key1': 'val1', 'key2': 'val2'})
    
    
    delete 和 delete_multi
        delete          在Memcached中删除指定的一个键值对
        delete_multi    在Memcached中删除指定的多个键值对
    
            import memcache
            mc = memcache.Client(['10.211.55.4:12000'], debug=True)
            mc.delete('key0')
            mc.delete_multi(['key1', 'key2'])
    
    
    get 和 get_multi
        get         获取一个键值对
        get_multi   获取多一个键值对
    
            import memcache
            mc = memcache.Client(['10.211.55.4:12000'], debug=True)
            val = mc.get('key0')
            item_dict = mc.get_multi(["key1", "key2", "key3"])
    
    
    append 和 prepend
        append    修改指定key的值,在该值 后面 追加内容
        prepend   修改指定key的值,在该值 前面 插入内容
    
            import memcache
            mc = memcache.Client(['10.211.55.4:12000'], debug=True)
            # k1 = "v1"
             
            mc.append('k1', 'after')
            # k1 = "v1after"
             
            mc.prepend('k1', 'before')
            # k1 = "beforev1after"
    
    
    decr 和 incr
        incr  自增,将Memcached中的某一个值增加 N ( N默认为1 )
        decr  自减,将Memcached中的某一个值减少 N ( N默认为1 )
            import memcache
    
            mc = memcache.Client(['10.211.55.4:12000'], debug=True)
            mc.set('k1', '777')
             
            mc.incr('k1')
            # k1 = 778
             
            mc.incr('k1', 10)
            # k1 = 788
             
            mc.decr('k1')
            # k1 = 787
             
            mc.decr('k1', 10)
            # k1 = 777
    
    
    gets 和 cas
    
        s1.py设置mc.set("ct", 1000)
        s2.py和s3.py
            import memcache
            mc = memcache.Client([('192.168.11.81:12000',1),], debug=True)
            ret = mc.get('ct')
            print(ret)
            v = input('>>>>')
            mc.cas('ct',999)
    
        运行s2.py #---> 1000
        运行s3.py #---> 1000
        运行s1.py 获取mc.get('ct')     # ---> 999,实际应该是998
    
        解决:
            s2.py和s3.py
                import memcache
                mc = memcache.Client([('192.168.11.81:12000',1),], debug=True,cache_cas=True)
                ret = mc.gets('ct')
                print(ret)
                v = input('>>>>')
                mc.cas('ct',999)
    
            运行s2.py #---> 1000
            运行s3.py # 报错
    View Code

    4. memcached应用Django缓存中

    http://www.cnblogs.com/xuyaping/p/7106809.html

    redis也能应用到django中,但不支持内置。需要第三方插件来实现,搜django、redis缓存插件。
    

    4.1 数据类型

    k->""                    #字符串
    k->[1,2,3,2,666]        #列表
    chouti:items:
    chout:start_urls
    
    
    
    k->{"k1":'v1','k2':'v2'}    #字典
    k->{11,222}                  #集合,不重复
    chouti:dupefilter:{}
    
    k->{11(9),222(3)}            #有序集合,不重复,可排序。根据()内数字进行排序
    chouti:requests 
    cnblogs:requests : 
    
    设想:
        
        conn.set('k','v')        
        
        conn.append('k','666')        # 当设置的v是列表[1,2,3,2] ---> [1,2,3,2,666]
        
        conn.set('k',k1,v1)            # 设置的v是字典
        
        conn.add('k',11)             # 设置的v是集合,去重规则
        
        k->{http://www.xxx.com(-1),www.xxx.com(-2),,www.xxx.com(-3)}        # 根据()里数字优先级来下载网页
    数据类型

    4.2 操作模式

    redis-py提供两个类Redis和StrictRedis用于实现Redis的命令,StrictRedis用于实现大部分官方的命令,并使用官方的语法和命令,
    Redis是StrictRedis的子类,用于向后兼容旧版本的redis-py。
    
    import redis
    r = redis.Redis(host='192.168.11.81', port=6379)
    r.set('foo', 'Bar')
    print r.get('foo')
    操作模式:连接

    4.3 连接池

    redis-py使用connection pool来管理对一个redis server的所有连接,避免每次建立、释放连接的开销。默认,每个Redis实例都会维护一个自己的连接池。
    可以直接建立一个连接池,然后作为参数Redis,这样就可以实现多个Redis实例共享一个连接池。
    
    import redis
    
    pool = redis.ConnectionPool(host='192.168.11.81', port=6379)
     
    r = redis.Redis(connection_pool=pool)
    r.set('foo', 'Bar')
    print r.get('foo')
    #---> b'Bar'
    连接池:推荐使用,避免重复连接

    4.4 操作

    String操作,redis中的String在在内存中按照一个name对应一个value来存储。如图:

    set(name, value, ex=None, px=None, nx=False, xx=False)

    在Redis中设置值,默认,不存在则创建,存在则修改
    参数:
         ex,过期时间(秒)
         px,过期时间(毫秒)
         nx,如果设置为True,则只有name不存在时,当前set操作才执行
         xx,如果设置为True,则只有name存在时,岗前set操作才执行
    

    setnx(name, value)

    设置值,只有name不存在时,执行设置操作(添加)
    

    setex(name, value, time)

    # 设置值
    # 参数:
        # time,过期时间(数字秒 或 timedelta对象)
    

    psetex(name, time_ms, value)

    # 设置值
    # 参数:
        # time_ms,过期时间(数字毫秒 或 timedelta对象)
    

    mset(*args, **kwargs)

    批量设置值
    如:
        mset(k1='v1', k2='v2')
        或
        mget({'k1': 'v1', 'k2': 'v2'})
    

    get(name)

    获取值
    

    mget(keys, *args)

    批量获取
    如:
        mget('ylr', 'wupeiqi')
        或
        r.mget(['ylr', 'wupeiqi'])
    

    getset(name, value)

    设置新值并获取原来的值
    

    getrange(key, start, end)

    # 获取子序列(根据字节获取,非字符)
    # 参数:
        # name,Redis 的 name
        # start,起始位置(字节)
        # end,结束位置(字节)
    # 如: "武沛齐" ,0-3表示 "武"
    

    setrange(name, offset, value)

    # 修改字符串内容,从指定字符串索引开始向后替换(新值太长时,则向后添加)
    # 参数:
        # offset,字符串的索引,字节(一个汉字三个字节)
        # value,要设置的值
    

    setbit(name, offset, value)

    # 对name对应值的二进制表示的位进行操作
    
    # 参数:
        # name,redis的name
        # offset,位的索引(将值变换成二进制后再进行索引)
        # value,值只能是 1 或 0
    
    # 注:如果在Redis中有一个对应: n1 = "foo",
            那么字符串foo的二进制表示为:01100110 01101111 01101111
        所以,如果执行 setbit('n1', 7, 1),则就会将第7位设置为1,
            那么最终二进制则变成 01100111 01101111 01101111,即:"goo"
    
    # 扩展,转换二进制表示:
    
        # source = "武沛齐" 
        source = "foo" 
    
        for i in source:
            num = ord(i)
            print bin(num).replace('b','')
    
        特别的,如果source是汉字 "武沛齐"怎么办?
        答:对于utf-8,每一个汉字占 3 个字节,那么 "武沛齐" 则有 9个字节
           对于汉字,for循环时候会按照 字节 迭代,那么在迭代时,将每一个字节转换 十进制数,然后再将十进制数转换成二进制
            11100110 10101101 10100110 11100110 10110010 10011011 11101001 10111101 10010000
            -------------------------- ----------------------------- -----------------------------
                        武                         沛                           齐

    getbit(name, offset)

    # 获取name对应的值的二进制表示中的某位的值 (0或1)
    

    bitcount(key, start=None, end=None)

    # 获取name对应的值的二进制表示中 1 的个数
    # 参数:
        # key,Redis的name
        # start,位起始位置
        # end,位结束位置
    

    bitop(operation, dest, *keys)

    # 获取多个值,并将值做位运算,将最后的结果保存至新的name对应的值
    
    # 参数:
        # operation,AND(并) 、 OR(或) 、 NOT(非) 、 XOR(异或)
        # dest, 新的Redis的name
        # *keys,要查找的Redis的name
    
    # 如:
        bitop("AND", 'new_name', 'n1', 'n2', 'n3')
        # 获取Redis中n1,n2,n3对应的值,然后讲所有的值做位运算(求并集),然后将结果保存 new_name 对应的值中
    

    strlen(name)

    # 返回name对应值的字节长度(一个汉字3个字节)
    

    incr(self, name, amount=1)

    # 自增 name对应的值,当name不存在时,则创建name=amount,否则,则自增。
    
    # 参数:
        # name,Redis的name
        # amount,自增数(必须是整数)
    
    # 注:同incrby
    

    incrbyfloat(self, name, amount=1.0)

    # 自增 name对应的值,当name不存在时,则创建name=amount,否则,则自增。
    
    # 参数:
        # name,Redis的name
        # amount,自增数(浮点型)
    

    decr(self, name, amount=1)

    # 自减 name对应的值,当name不存在时,则创建name=amount,否则,则自减。
    
    # 参数:
        # name,Redis的name
        # amount,自减数(整数)
    

    append(key, value)

    # 在redis name对应的值后面追加内容
    
    # 参数:
        key, redis的name
        value, 要追加的字符串
    

      

    Hash操作,redis中Hash在内存中的存储格式如下图:

    hset(name, key, value)

    # name对应的hash中设置一个键值对(不存在,则创建;否则,修改)
    
    # 参数:
        # name,redis的name
        # key,name对应的hash中的key
        # value,name对应的hash中的value
    
    # 注:
        # hsetnx(name, key, value),当name对应的hash中不存在当前key时则创建(相当于添加)
    

    hmset(name, mapping)

    # 在name对应的hash中批量设置键值对
    
    # 参数:
        # name,redis的name
        # mapping,字典,如:{'k1':'v1', 'k2': 'v2'}
    
    # 如:
        # r.hmset('xx', {'k1':'v1', 'k2': 'v2'})
    

    hget(name,key)

    # 在name对应的hash中获取根据key获取value
    

    hmget(name, keys, *args)

    # 在name对应的hash中获取多个key的值
    
    # 参数:
        # name,reids对应的name
        # keys,要获取key集合,如:['k1', 'k2', 'k3']
        # *args,要获取的key,如:k1,k2,k3
    
    # 如:
        # r.mget('xx', ['k1', 'k2'])
        # 或
        # print r.hmget('xx', 'k1', 'k2')
    

    hgetall(name)

    获取name对应hash的所有键值
    

    hlen(name)

    # 获取name对应的hash中键值对的个数
    

    hkeys(name)

    # 获取name对应的hash中所有的key的值
    

    hvals(name)

    # 获取name对应的hash中所有的value的值
    

    hexists(name, key)

    # 检查name对应的hash是否存在当前传入的key
    

    hdel(name,*keys)

    # 将name对应的hash中指定key的键值对删除
    

    hincrby(name, key, amount=1)

    # 自增name对应的hash中的指定key的值,不存在则创建key=amount
    # 参数:
        # name,redis中的name
        # key, hash对应的key
        # amount,自增数(整数)
    

    hincrbyfloat(name, key, amount=1.0)

    # 自增name对应的hash中的指定key的值,不存在则创建key=amount
    
    # 参数:
        # name,redis中的name
        # key, hash对应的key
        # amount,自增数(浮点数)
    
    # 自增name对应的hash中的指定key的值,不存在则创建key=amount
    

    hscan(name, cursor=0, match=None, count=None)

    # 增量式迭代获取,对于数据大的数据非常有用,hscan可以实现分片的获取数据,并非一次性将数据全部获取完,从而放置内存被撑爆
    
    # 参数:
        # name,redis的name
        # cursor,游标(基于游标分批取获取数据)
        # match,匹配指定key,默认None 表示所有的key
        # count,每次分片最少获取个数,默认None表示采用Redis的默认分片个数
    
    # 如:
        # 第一次:cursor1, data1 = r.hscan('xx', cursor=0, match=None, count=None)
        # 第二次:cursor2, data1 = r.hscan('xx', cursor=cursor1, match=None, count=None)
        # ...
        # 直到返回值cursor的值为0时,表示数据已经通过分片获取完毕
    

    hscan_iter(name, match=None, count=None)

    # 利用yield封装hscan创建生成器,实现分批去redis中获取数据
    
    # 参数:
        # match,匹配指定key,默认None 表示所有的key
        # count,每次分片最少获取个数,默认None表示采用Redis的默认分片个数
    
    # 如:
        # for item in r.hscan_iter('xx'):
        #     print item
    

      

    List操作,redis中的List在在内存中按照一个name对应一个List来存储。如图:

    lpush(name,values)

    # 在name对应的list中添加元素,每个新的元素都添加到列表的最左边
    
    # 如:
        # r.lpush('oo', 11,22,33)
        # 保存顺序为: 33,22,11
    
    # 扩展:
        # rpush(name, values) 表示从右向左操作
    

    lpushx(name,value)

    # 在name对应的list中添加元素,只有name已经存在时,值添加到列表的最左边
    
    # 更多:
        # rpushx(name, value) 表示从右向左操作
    

    llen(name)

    # name对应的list元素的个数
    

    linsert(name, where, refvalue, value))

    # 在name对应的列表的某一个值前或后插入一个新值
    
    # 参数:
        # name,redis的name
        # where,BEFORE或AFTER
        # refvalue,标杆值,即:在它前后插入数据
        # value,要插入的数据
    

    r.lset(name, index, value)

    # 对name对应的list中的某一个索引位置重新赋值
    
    # 参数:
        # name,redis的name
        # index,list的索引位置
        # value,要设置的值
    

    r.lrem(name, value, num)

    # 在name对应的list中删除指定的值
    
    # 参数:
        # name,redis的name
        # value,要删除的值
        # num,  num=0,删除列表中所有的指定值;
               # num=2,从前到后,删除2个;
               # num=-2,从后向前,删除2个
    

    lpop(name)

    # 在name对应的列表的左侧获取第一个元素并在列表中移除,返回值则是第一个元素
    
    # 更多:
        # rpop(name) 表示从右向左操作
    

    lindex(name, index)

    在name对应的列表中根据索引获取列表元素
    

    lrange(name, start, end)

    # 在name对应的列表分片获取数据
    # 参数:
        # name,redis的name
        # start,索引的起始位置
        # end,索引结束位置
    

    ltrim(name, start, end)

    # 在name对应的列表中移除没有在start-end索引之间的值
    # 参数:
        # name,redis的name
        # start,索引的起始位置
        # end,索引结束位置
    

    rpoplpush(src, dst)

    # 从一个列表取出最右边的元素,同时将其添加至另一个列表的最左边
    # 参数:
        # src,要取数据的列表的name
        # dst,要添加数据的列表的name
    

    blpop(keys, timeout)

    # 将多个列表排列,按照从左到右去pop对应列表的元素
    
    # 参数:
        # keys,redis的name的集合
        # timeout,超时时间,当元素所有列表的元素获取完之后,阻塞等待列表内有数据的时间(秒), 0 表示永远阻塞
    
    # 更多:
        # r.brpop(keys, timeout),从右向左获取数据
    

    brpoplpush(src, dst, timeout=0)

    # 从一个列表的右侧移除一个元素并将其添加到另一个列表的左侧
    
    # 参数:
        # src,取出并要移除元素的列表对应的name
        # dst,要插入元素的列表对应的name
        # timeout,当src对应的列表中没有数据时,阻塞等待其有数据的超时时间(秒),0 表示永远阻塞
    

    自定义增量迭代

    # 由于redis类库中没有提供对列表元素的增量迭代,如果想要循环name对应的列表的所有元素,那么就需要:
        # 1、获取name对应的所有列表
        # 2、循环列表
    # 但是,如果列表非常大,那么就有可能在第一步时就将程序的内容撑爆,所有有必要自定义一个增量迭代的功能:
    
    def list_iter(name):
        """
        自定义redis列表增量迭代
        :param name: redis中的name,即:迭代name对应的列表
        :return: yield 返回 列表元素
        """
        list_count = r.llen(name)
        for index in xrange(list_count):
            yield r.lindex(name, index)
    
    # 使用
    for item in list_iter('pp'):
        print item
    

    Set操作,Set集合就是不允许重复的列表

    sadd(name,values)

    # name对应的集合中添加元素
    

    scard(name)

    获取name对应的集合中元素个数
    

    sdiff(keys, *args)

    在第一个name对应的集合中且不在其他name对应的集合的元素集合
    

    sdiffstore(dest, keys, *args)

    # 获取第一个name对应的集合中且不在其他name对应的集合,再将其新加入到dest对应的集合中
    

    sinter(keys, *args)

    # 获取多一个name对应集合的并集
    

    sinterstore(dest, keys, *args)

    # 获取多一个name对应集合的并集,再讲其加入到dest对应的集合中
    

    sismember(name, value)

    # 检查value是否是name对应的集合的成员
    

    smembers(name)

    # 获取name对应的集合的所有成员
    

    smove(src, dst, value)

    # 将某个成员从一个集合中移动到另外一个集合
    

    spop(name)

    # 从集合的右侧(尾部)移除一个成员,并将其返回
    

    srandmember(name, numbers)

    # 从name对应的集合中随机获取 numbers 个元素
    

    srem(name, values)

    # 在name对应的集合中删除某些值
    

    sunion(keys, *args)

    # 获取多一个name对应的集合的并集
    

    sunionstore(dest,keys, *args)

    # 获取多一个name对应的集合的并集,并将结果保存到dest对应的集合中
    

    sscan(name, cursor=0, match=None, count=None)
    sscan_iter(name, match=None, count=None)

    # 同字符串的操作,用于增量迭代分批获取元素,避免内存消耗太大
    

    有序集合,在集合的基础上,为每元素排序;元素的排序需要根据另外一个值来进行比较,所以,对于有序集合,每一个元素有两个值,即:值和分数,分数专门用来做排序。

    zadd(name, *args, **kwargs)

    # 在name对应的有序集合中添加元素
    # 如:
         # zadd('zz', 'n1', 1, 'n2', 2)
         # 或
         # zadd('zz', n1=11, n2=22)
    

    zcard(name)

    # 获取name对应的有序集合元素的数量
    

    zcount(name, min, max)

    # 获取name对应的有序集合中分数 在 [min,max] 之间的个数
    

    zincrby(name, value, amount)

    # 自增name对应的有序集合的 name 对应的分数
    

    r.zrange( name, start, end, desc=False, withscores=False, score_cast_func=float)

    # 按照索引范围获取name对应的有序集合的元素
    
    # 参数:
        # name,redis的name
        # start,有序集合索引起始位置(非分数)
        # end,有序集合索引结束位置(非分数)
        # desc,排序规则,默认按照分数从小到大排序
        # withscores,是否获取元素的分数,默认只获取元素的值
        # score_cast_func,对分数进行数据转换的函数
    
    # 更多:
        # 从大到小排序
        # zrevrange(name, start, end, withscores=False, score_cast_func=float)
    
        # 按照分数范围获取name对应的有序集合的元素
        # zrangebyscore(name, min, max, start=None, num=None, withscores=False, score_cast_func=float)
        # 从大到小排序
        # zrevrangebyscore(name, max, min, start=None, num=None, withscores=False, score_cast_func=float)
    

    zrank(name, value)

    # 获取某个值在 name对应的有序集合中的排行(从 0 开始)
    
    # 更多:
        # zrevrank(name, value),从大到小排序
    

    zrangebylex(name, min, max, start=None, num=None)

    # 当有序集合的所有成员都具有相同的分值时,有序集合的元素会根据成员的 值 (lexicographical ordering)来进行排序,而这个命令则可以返回给定的有序集合键 key 中, 元素的值介于 min 和 max 之间的成员
    # 对集合中的每个成员进行逐个字节的对比(byte-by-byte compare), 并按照从低到高的顺序, 返回排序后的集合成员。 如果两个字符串有一部分内容是相同的话, 那么命令会认为较长的字符串比较短的字符串要大
    
    # 参数:
        # name,redis的name
        # min,左区间(值)。 + 表示正无限; - 表示负无限; ( 表示开区间; [ 则表示闭区间
        # min,右区间(值)
        # start,对结果进行分片处理,索引位置
        # num,对结果进行分片处理,索引后面的num个元素
    
    # 如:
        # ZADD myzset 0 aa 0 ba 0 ca 0 da 0 ea 0 fa 0 ga
        # r.zrangebylex('myzset', "-", "[ca") 结果为:['aa', 'ba', 'ca']
    
    # 更多:
        # 从大到小排序
        # zrevrangebylex(name, max, min, start=None, num=None)
    

    zrem(name, values)

    # 删除name对应的有序集合中值是values的成员
    
    # 如:zrem('zz', ['s1', 's2'])
    

    zremrangebyrank(name, min, max)

    # 根据排行范围删除
    

    zremrangebyscore(name, min, max)

    # 根据分数范围删除
    

    zremrangebylex(name, min, max)

    # 根据值返回删除
    

    zscore(name, value)

    # 获取name对应有序集合中 value 对应的分数
    

    zinterstore(dest, keys, aggregate=None)

    # 获取两个有序集合的交集,如果遇到相同值不同分数,则按照aggregate进行操作
    # aggregate的值为:  SUM  MIN  MAX
    

    zunionstore(dest, keys, aggregate=None)

    # 获取两个有序集合的并集,如果遇到相同值不同分数,则按照aggregate进行操作
    # aggregate的值为:  SUM  MIN  MAX
    

    zscan(name, cursor=0, match=None, count=None, score_cast_func=float)
    zscan_iter(name, match=None, count=None,score_cast_func=float)

    # 同字符串相似,相较于字符串新增score_cast_func,用来对分数进行操作
    

      

    其他常用操作

    delete(*names)

    # 根据删除redis中的任意数据类型
    

    exists(name)

    # 检测redis的name是否存在
    

    keys(pattern='*')

    # 根据模型获取redis的name
    
    # 更多:
        # KEYS * 匹配数据库中所有 key 。
        # KEYS h?llo 匹配 hello , hallo 和 hxllo 等。
        # KEYS h*llo 匹配 hllo 和 heeeeello 等。
        # KEYS h[ae]llo 匹配 hello 和 hallo ,但不匹配 hillo 
    

    expire(name ,time)

    # 为某个redis的某个name设置超时时间
    

    rename(src, dst)

    # 对redis的name重命名为
    

    move(name, db))

    # 将redis的某个值移动到指定的db下
    

    randomkey()

    # 随机获取一个redis的name(不删除)
    

    type(name)

    # 获取name对应值的类型
    

    scan(cursor=0, match=None, count=None)
    scan_iter(match=None, count=None)

    # 同字符串操作,用于增量迭代获取key
    

     

    4.5  发布和订阅:但比rabbitmq弱很多

    import redis
    pool = redis.ConnectionPool(host='192.168.11.81', port=6379,)
    conn = redis.Redis(connection_pool=pool)
    conn.publish('fm104.5','sb')
    s5.py:发布
    import redis
    pool = redis.ConnectionPool(host='192.168.11.81', port=6379)
    conn = redis.Redis(connection_pool=pool)
    pb = conn.pubsub()
    pb.subscribe('fm104.5')
    
    
    while True:
        msg = pb.parse_response()
        print(msg)
    s6.py、s7.py:订阅
    运行s6.py、s7.py,然后运行s5.py实现发布和订阅。
    

      

    四、 scrapy-redis插件实现简单分布式爬虫

    scrapy-redis插件用于将scrapy和redis结合实现简单分布式爬虫:
    	- 定义调度器
    	- 定义去重规则: 本质利用redis 集合元素不重复(被调度器使用)	# 看源码request_seen函数
    
    pip3 install scrapy-redis
    

    1. redis配置文件settings.py

    #from scrapy_redis import defaults                         # 查看默认配置
    查看默认配置
    REDIS_HOST = '192.168.11.81'                            # 主机名
    REDIS_PORT = 6379                                       # 端口
    # REDIS_URL = 'redis://user:pass@hostname:9001'           # 连接URL(优先于以上配置)
    # REDIS_PARAMS  = {}                                      # Redis连接参数             默认:REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,})
    # REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'     # 指定连接Redis的Python模块  默认:redis.StrictRedis
    REDIS_ENCODING = "utf-8"                                # redis编码类型             默认:'utf-8'
    连接
    from scrapy_redis.scheduler import Scheduler
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"        # 使用该调度器,scrapy-redis原生调度器被替换掉
    
    from scrapy_redis.queue import PriorityQueue
    from scrapy_redis import picklecompat
    SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'              # 默认使用优先级队列(默认),其他:PriorityQueue(有序集合),FifoQueue(列表)、LifoQueue(列表)
    SCHEDULER_QUEUE_KEY = '%(spider)s:requests'                              # 调度器中请求存放在redis中的key
    SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"                      # 对保存到redis中的数据进行序列化,默认使用pickle
    SCHEDULER_PERSIST = True                                                  # 是否在关闭时候保留原来的调度器和去重记录,True=保留,False=清空
    SCHEDULER_FLUSH_ON_START = False                                          # 是否在开始之前清空 调度器和去重记录,True=清空,False=不清空。本地测试可以为true,实际工作中False
    SCHEDULER_IDLE_BEFORE_CLOSE = 10                                          # 去调度器中获取数据时,如果为空,最多等待时间(最后没数据,未获取到)。
    SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'                      # 去重规则,在redis中保存时对应的key
    SCHEDULER_DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'      # 去重规则对应处理的类
    调度器
    from scrapy_redis.pipelines import RedisPipeline
    
    ITEM_PIPELINES = {
       'scrapy_redis.pipelines.RedisPipeline': 300,
    }
    
    REDIS_ITEMS_KEY = '%(spider)s:items'
    REDIS_ITEMS_SERIALIZER = 'json.dumps'    # 指定下序列化
    数据持久化

    2.当url太长时,数据库保存占空间,创建唯一标识符

    from scrapy.utils import request
    from scrapy.http import Request
    
    
    obj1 = Request(url='http://www.baidu.com?id=1&name=3')
    obj2 = Request(url='http://www.baidu.com?name=3&id=1')        # 当传参一致时,创建的标识符也一样
    
    v = request.request_fingerprint(obj1)
    print(v)
    v = request.request_fingerprint(obj2)
    print(v)
    test.py

    3. 起始URL相关

    from scrapy_redis.pipelines import RedisSpider
    class ChoutiSpider(scrapy.RedisSpider):
        name = "chouti"
        allowed_domains = ["chouti.com"]
    
        def parse(self, response):
            for i in range(0,10):
                yield
    chouti.py:不用写起始url,但是这个爬虫不会终止, 不用redis的话爬虫下载完url后会终止。

    总结:

    1. memcached
    	
    2. Django缓存
    
    3. redis
    	- 连接
    		- StrictRedis()
    		- Redis(StrictRedis)	# 继承StrictRedis
    		- 连接池
    		
    	- 基本操作
    		..
    		
    	- 事务
    
    	- 发布和订阅
    	
    4. scrapy-redis流程
    	4.1 引擎,获取起始Request对象, 添加(pickle)到调度器
    		- scrapy内部调度器
    		- scrapy-redis调度器三个选择:先进先出列表,后进先出列表,有序集合
    
    	4.2 调度器通知下载器可以开始下载,去调度器中获取request对象(通过pickle存储request对象),下载器进行下载			
    	
    	4.3 爬虫parse方法,yield返回对象item或request
    		- item				交给pipeline处理
    		- request			交给调度去处理,调用DUPEFILTER_CLASS去检查是否已经访问过,来决定request重新放置调度器或者丢弃
    
    
    	
    
    	scrapy-redis扩种:
    		- 中间件
    		- 基于信号的扩展
    

     

    五、scrapy-redis示例

    # DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    #
    #
    # from scrapy_redis.scheduler import Scheduler
    # from scrapy_redis.queue import PriorityQueue
    # SCHEDULER = "scrapy_redis.scheduler.Scheduler"
    # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'          # 默认使用优先级队列(默认),其他:PriorityQueue(有序集合),FifoQueue(列表)、LifoQueue(列表)
    # SCHEDULER_QUEUE_KEY = '%(spider)s:requests'                         # 调度器中请求存放在redis中的key
    # SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"                  # 对保存到redis中的数据进行序列化,默认使用pickle
    # SCHEDULER_PERSIST = True                                            # 是否在关闭时候保留原来的调度器和去重记录,True=保留,False=清空
    # SCHEDULER_FLUSH_ON_START = False                                    # 是否在开始之前清空 调度器和去重记录,True=清空,False=不清空
    # SCHEDULER_IDLE_BEFORE_CLOSE = 10                                    # 去调度器中获取数据时,如果为空,最多等待时间(最后没数据,未获取到)。
    # SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'                  # 去重规则,在redis中保存时对应的key
    # SCHEDULER_DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'# 去重规则对应处理的类
    #
    #
    #
    # REDIS_HOST = '10.211.55.13'                           # 主机名
    # REDIS_PORT = 6379                                     # 端口
    # # REDIS_URL = 'redis://user:pass@hostname:9001'       # 连接URL(优先于以上配置)
    # # REDIS_PARAMS  = {}                                  # Redis连接参数             默认:REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,})
    # # REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient' # 指定连接Redis的Python模块  默认:redis.StrictRedis
    # REDIS_ENCODING = "utf-8"                              # redis编码类型             默认:'utf-8'
    配置文件
    import scrapy
    
    
    class ChoutiSpider(scrapy.Spider):
        name = "chouti"
        allowed_domains = ["chouti.com"]
        start_urls = (
            'http://www.chouti.com/',
        )
    
        def parse(self, response):
            for i in range(0,10):
                yield
    爬虫文件

     

  • 相关阅读:
    MD5加密 + 盐
    SQLite数据库--C#访问加密的SQLite数据库
    SQLite问题笔记
    微信开发--Two.菜单生成
    NOIP2018游记(更新完毕)
    HNOI2019 游记
    JXOI2017-2018 解题报告
    网络流20+4题解题报告(已更前20题)
    CodeForces528A (STLset)
    CodeForces 140C New Year Snowmen(堆)
  • 原文地址:https://www.cnblogs.com/xuyaping/p/7760926.html
Copyright © 2020-2023  润新知