• redis 学习(14)-- HyperLogLog


    HyperLogLog

    什么是 HyperLogLog

    HyperLogLog 是基于 HyperLogLog 算法的一种数据结构,该算法可以在极小空间完成独立数量统计。

    在本质上还是字符串类型。

    重要 API

    命令 含义
    pfadd key element1 [element2...] 向HyperLogLog中添加元素
    pfcount key1 [key2...] 计算HyperLogLog的独立总数
    pfmerge destKey key1 [key2...] 合并多个hyperLogLog到destKey中

    演示

    内存消耗

    以百万独立用户为例

    elements = ""
    key = "2019_06_02:unique:ids"
    for i in `seq 1 1000000`
    do 
      elements = "${elements} uuid-"${i}
      if [[$((i%1000)) == 0 ]]
      then
        redis-cli pfadd ${key}${elements}
    	elements = ""
      fi
     done
    
    内存消耗
    1 天 15 KB
    1 个月 450 KB
    1 年 15KB * 365 = 5 MB

    可以看到内存消耗是非常低的,比我们之前学过的 BitMap 还要低得多。

    使用经验

    Q:既然 HyperLogLog 那么好,那么是不是以后用这个来存储数据就行了呢?

    A:这里要考虑两个因素:

    1. hyperloglog 的错误率为:0.81%,存储的数据不能百分百准确。
    2. hyperloglog 不能取出单条数据。api 中也没有相关操作。

    如果你没有这两个方面的顾虑,那么用 HyperLogLog 来存储大规模数据,还是非常不错的。

  • 相关阅读:
    linux读写锁
    正则表达式
    C++原型模式和模板模式
    C++外观模式和组合模式
    C++代理模式
    c++桥接模式
    Linux常用命令history/tcpdump/awk/grep
    C++委托模式
    c++ 读写锁
    布衣客
  • 原文地址:https://www.cnblogs.com/weixuqin/p/10963632.html
Copyright © 2020-2023  润新知