• 49 特征距离度量问题


    0 引言

     视觉领域有相当一部分问题可以归结为相似性测度问题。举例而言,二维空间中的分类问题涉及到分割和分类两个步骤。分割时将属于某类物体的像素点聚类,分类时则寻找一个合适的向量空间,给出某些像素集合属于某类物体的判断。这个判断常常依赖某类距离度量公式。常用的距离公式是欧式距离公式,也有其他一些好玩的距离公式,此处将这些距离公式列举如下,并解释其物理意义,以备后续算法开发使用。

    1 欧式距离 

    这是最常用的距离公式,其物理意义也非常简单。一维的欧式距离就是两个标量值之差的绝对值,比如北京到武汉的路程与武汉到广州的路程谁远?此处可应用欧式距离进行度量。其他维度的欧式距离则求两个向量在高维空间的距离范式,也相当清晰明了。

    2 Hausdorff距离

    参考链接,写得非常好,很好懂。

    https://www.cnblogs.com/xlz10/p/3929119.html

    d_{{{mathrm  H}}}(X,Y)=max{\,sup _{{xin X}}inf _{{yin Y}}d(x,y),\,sup _{{yin Y}}inf _{{xin X}}d(x,y)\,}{mbox{,}}!

    以图为例,途中蓝色的圈是Y点集,绿色的圈是X点集,Hausdorff距离定义如下。

    (1)求X中任意一点到Y中所有点的最短距离d(X,Y)

    (2)求Y中任意一点到X中所有点的最短距离d(Y,X)

    (3)dH(X,Y) = max(d(x,y), d(y,x)). 

    其物理意义如下:度量了两个点集之间的最大不相似度。

    3 google新闻分类算法:余弦定理

    (1)建立新闻词汇表(eg:64,000个词),对词汇进行编号,并计算每个实词的TF-IDF值,得到一个描述当前这篇新闻的特征向量,64,000维.

    (2)向量距离的度量:采用余弦公式来进行计算,如下。

    cos sitar=  (x1*y1 + x2*y2 + ... + x64000*y64000)/(sqrt(x1^2 + x2^2 + ... + x64000^2) * sqrt(y1^2 + y2^2 + ... + y64000^2))

     (3)当两条新闻向量夹角的余弦等于1时,这两个向量完全相同;当夹角的余弦接近于1时,两条新闻相似,从而可以归成一类;夹角的余弦越小,夹角越大,两条新闻越不相关。当两个向量正交时,夹角的余弦为零,说明两篇新闻根本没有相同的主题词,它们毫不相关。

    (4)新闻分类与聚类。

      (4.1)首先计算所有新闻之间两两的余弦相似性,把相似性大于一个阈值的新闻合并成一个小类。这样N篇新闻就被合并成N1个小类。

      (4.2)把每个小类中的所有新闻作为一个整体,计算小类的特征向量,再计算小类之间两两的余弦相似性,然后合并成大一点的小类。

      (4.3)不断重复(4.2),新闻的类别越来越小,每个类越来越大。当某一类太大时,这一类里一些新闻之间的相似性就很小了,这时就要停止上述迭代过程。至此,新闻自动分类完成。

  • 相关阅读:
    5773. 【NOIP2008模拟】简单数学题
    jzoj_5455. 【NOIP2017提高A组冲刺11.6】拆网线
    5461. 【NOIP2017提高A组冲刺11.8】购物
    博客第三天
    博客第二天
    博客的第一天。
    微服务架构下的session一致性
    分布式数据库数据一致性的原理、与技术实现方案
    epoll的本质
    DNS域名解析过程
  • 原文地址:https://www.cnblogs.com/ghjnwk/p/10450525.html
Copyright © 2020-2023  润新知