今天打算使用redis 的bitset搞一个 bloom filter, 这样的好处是可以节省内存,坏处是可能在会有一些数据因为提示重复而无法保存。
bloom filter 的大体原理就是通过不同的hash函数将一个字符串映射到几个不同的位,并将这几个不同的位设置为1.
如果在查找某个字符串的时候,发现通过hash映射后的位有的不为1,说明该字符串不存在。
如果发现所有的位都为1,那该字符串有一定的概率不存在,通常这个概率会很小。
相关内容可以查看:
http://olylakers.iteye.com/blog/2089275
不过上面的是java的,我在github上找了一个python的
http://github.com/jaybaird/python-bloomfilter/
不过这个是基于python的bitarray 的,稍微修改了下,并删掉了许多东西,让它变成使用redis的bitset
https://github.com/walkwalkwalk/python_redis_bloomfilter