redis学习笔记（10）HyperLogLog类型

redis学习笔记（10）HyperLogLog类型
1、概述

在工作当中，我们经常会遇到与统计相关的功能需求，比如统计网站 PV（PageView 页面访问量），可以使用 Redis 的 incr、incrby 轻松实现。但像 UV（UniqueVisitor 独立访客）、独立 IP 数、搜索记录数等需要去重和计数的问题如何解决？这种求集合中不重复元素个数的问题称为基数问题。

解决基数问题有很多种方案：

数据存储在 MySQL 表中，使用 distinct count 计算不重复个数。

使用 Redis 提供的 hash、set、bitmaps 等数据结构来处理。

以上的方案结果精确，但随着数据不断增加，导致占用空间越来越大，对于非常大的数据集是不切实际的。能否能够降低一定的精度来平衡存储空间？Redis 推出了 HyperLogLog。

Redis HyperLogLog 是用来做基数统计的算法，HyperLogLog 的优点是：在输入元素的数量或者体积非常非常大时，计算基数所需的空间总是固定的、并且是很小的。

在 Redis 里面，每个 HyperLogLog 键只需要花费 12 KB 内存，就可以计算接近 2^64 个不同元素的基数。这和计算基数时，元素越多耗费内存就越多的集合形成鲜明对比。

但是，因为 HyperLogLog 只会根据输入元素来计算基数，而不会储存输入元素本身，所以 HyperLogLog 不能像集合那样，返回输入的各个元素。

什么是基数？

比如数据集 {1, 3, 5, 7, 5, 7, 8}，那么这个数据集的基数集为 {1, 3, 5 ,7, 8}，基数 (不重复元素) 为 5。基数估计就是在误差可接受的范围内，快速计算基数。

2、相关操作
- pfadd key element [element …]----------将指定元素添加到HyperLogLog
- pfcount key [key …]---------当参数为一个key时,返回存储在HyperLogLog结构体的该变量的近似基数，如果该变量不存在,则返回0.当参数为多个key时，返回这些HyperLogLog并集的近似基数，这个值是将所给定的所有key的HyperLoglog结构合并到一个临时的HyperLogLog结构中计算而得到的.
- pfmerge destkey sourcekey [sourcekey …]-----------将多个 HyperLogLog 合并（merge）为一个 HyperLogLog，合并后的 HyperLogLog 的基数接近于所有输入 HyperLogLog 的可见集合（observed set）的并集
参考：Redis | ZC 的学习录 (zhangc233.github.io)

参考：(29条消息) redis key操作大全_IT_faquir的博客-CSDN博客_redis获取key对应的值
相关阅读:
P1219 N皇后（位运算&普通dfs）
P1434 滑雪（记忆化搜索）
P1118 数字三角形（技巧）
P1162 填涂颜色
 P1141 01迷宫
 P2685抓牛（bfs）
WordPress ‘crypt_private()’方法远程拒绝服务漏洞
 java获取网页源码
 tomcat报错： Error parsing HTTP request header
空指针异常的原因
原文地址：https://www.cnblogs.com/mango1997/p/16211117.html