MinHash算法

MinHash是用于快速检测两个集合的相似性的方法。改方法由Andrei Broder（1997）发明，并最初用于搜索引擎AltaVista中来检测重复的网页的算法。它同样可以用于推荐系统和大规模文档聚类中。

我们先介绍Jaccard相似度量。对于两个集合A与B，Jaccard相似性系数可以定义为：

容易知道，Jaccard系数是0-1之间的值。当两个集合越接近，那么该值越接近1；反之跟接近0。

假设h是一个hash function，将A与B的元素映射成一个整数，定义：

仅当

所以有，

若令

有了上面的重要结论，我们可以根据minhash来计算两个集合的相似度了。

方法1：使用多个hash函数

取k个hash函数，对于每个hash函数，计算

方法2：使用单一的hash函数

上面讲到的方法1是比较耗时的，因为要计算集合中每个元素的k个哈希函数的值，计算复杂度比较高。为了达到一定的准确性，k通常取400或800。

为了减少计算量，我们定义

那么

是集合

因此，

设A'=g(X1,X2,...,Xn)是未知参数A的一个点估计量，若A'满足

E(A'）= A

则称A'为A的无偏估计量，否则为有偏估计量。

注：无偏估计就是系统误差为零的估计。

相关阅读:
01 Jq 基础
01 属性
input 编辑框光标的相关问题
登录页面文字 2 3 4 个字等宽俩端对齐空格
复选框单选框与文字对齐问题的研究与解决
在Python中对MySQL中的数据进行可视化
输入2个坐标的数值求出对应坐标间的距离和圆的面积
numpy中arange函数内起始值必须大于结束值，否则生成为空的一维数组
条件语句练习-比分预测
三元表达式是棒棒哒！

原文地址：https://www.cnblogs.com/baiting/p/4132066.html