0 引言
视觉领域有相当一部分问题可以归结为相似性测度问题。举例而言,二维空间中的分类问题涉及到分割和分类两个步骤。分割时将属于某类物体的像素点聚类,分类时则寻找一个合适的向量空间,给出某些像素集合属于某类物体的判断。这个判断常常依赖某类距离度量公式。常用的距离公式是欧式距离公式,也有其他一些好玩的距离公式,此处将这些距离公式列举如下,并解释其物理意义,以备后续算法开发使用。
1 欧式距离
这是最常用的距离公式,其物理意义也非常简单。一维的欧式距离就是两个标量值之差的绝对值,比如北京到武汉的路程与武汉到广州的路程谁远?此处可应用欧式距离进行度量。其他维度的欧式距离则求两个向量在高维空间的距离范式,也相当清晰明了。
2 Hausdorff距离
参考链接,写得非常好,很好懂。
https://www.cnblogs.com/xlz10/p/3929119.html
以图为例,途中蓝色的圈是Y点集,绿色的圈是X点集,Hausdorff距离定义如下。
(1)求X中任意一点到Y中所有点的最短距离d(X,Y)
(2)求Y中任意一点到X中所有点的最短距离d(Y,X)
(3)dH(X,Y) = max(d(x,y), d(y,x)).
其物理意义如下:度量了两个点集之间的最大不相似度。
3 google新闻分类算法:余弦定理
(1)建立新闻词汇表(eg:64,000个词),对词汇进行编号,并计算每个实词的TF-IDF值,得到一个描述当前这篇新闻的特征向量,64,000维.
(2)向量距离的度量:采用余弦公式来进行计算,如下。
cos sitar= (x1*y1 + x2*y2 + ... + x64000*y64000)/(sqrt(x1^2 + x2^2 + ... + x64000^2) * sqrt(y1^2 + y2^2 + ... + y64000^2))
(3)当两条新闻向量夹角的余弦等于1时,这两个向量完全相同;当夹角的余弦接近于1时,两条新闻相似,从而可以归成一类;夹角的余弦越小,夹角越大,两条新闻越不相关。当两个向量正交时,夹角的余弦为零,说明两篇新闻根本没有相同的主题词,它们毫不相关。
(4)新闻分类与聚类。
(4.1)首先计算所有新闻之间两两的余弦相似性,把相似性大于一个阈值的新闻合并成一个小类。这样N篇新闻就被合并成N1个小类。
(4.2)把每个小类中的所有新闻作为一个整体,计算小类的特征向量,再计算小类之间两两的余弦相似性,然后合并成大一点的小类。
(4.3)不断重复(4.2),新闻的类别越来越小,每个类越来越大。当某一类太大时,这一类里一些新闻之间的相似性就很小了,这时就要停止上述迭代过程。至此,新闻自动分类完成。