• 【算法】相似度计算之汉明距离


      汉明距离是以理查德·卫斯里·汉明的名字命名的。在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句话说,它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。例如:
    1011101 与 1001001 之间的汉明距离是 2。
    2143896 与 2233796 之间的汉明距离是 3。
    "toned" 与 "roses" 之间的汉明距离是 3。
     
     
    例如:(00)与(01)的距离是1,(110)和(101)的距离是2。在一个码组集合中,任意两个编码之间汉明距离的最小值称为这个码组的最小汉明距离。最小汉明距离越大,码组越具有抗干扰能力。

    计算汉明距离的算法

      思路:

      01.将两个给定的数进行 异或(^)运算后保存在变量a,汉明距离就是a的二进制中1的个数

      02.当a不为0时,和0x01进行 按位与(&)运算,如果结果为1,则统计变量加一

      03.将a右移一位,重复第02步

    function hamDist($s1, $s2){
        $len1 = strlen($s1);
        $len2 = strlen($s2);
        if($len1 != $len2){
            return false;
        }
        $dist = 0;
        for($i = 0; $i < $len1; $i++){
            if($s1[$i] != $s2[$i]){
                $dist++;
            }
        }
        return $dist;
    }
    
    $s1 = "abcde";
    $s2 = "acdeb";
    
    echo hamDist($s1, $s2);// 输出4
    

      

    /**
     * 计算编辑距离(Levenshtein Distance)
     *
     * @param string $s1
     * @param string $s2
     */
    function levDist($s1, $s2){
        $len1 = strlen($s1);
        $len2 = strlen($s2);
     
        if($len1 == 0){
            return $len2;
        }
        if($len2 == 0){
            return $len1;
        }
     
        for($i = 0; $i <= $len1; $i++){
            $matrix[$i][0] = 0;
        }
        for($j = 0; $j <= $len2; $j++){
            $matrix[0][$j] = 0;
        }
        for($i = 1; $i <= $len1; $i++){
            $ch1 = $s1[$i - 1];
            for($j = 1; $j <= $len2; $j++){
                $ch2  = $s2[$j - 1];
                $temp = $ch1 == $ch2 ? 0 : 1;
                $arr = array(
                    $matrix[$i - 1][$j] + 1,
                    $matrix[$i][$j - 1] + 1,
                    $matrix[$i - 1][$j - 1] + $temp
                );
                $matrix[$i][$j] = min($arr);
            }
        }
        return $matrix[$len1][$len2];
    }
    

      

    PHP的相似度计算函数:levenshtein 也用到该算法的实现

    levenshtein(string1,string2,insert,replace,delete)

    参数 

    • string1 必需。要对比的第一个字符串。
    • string2 必需。要对比的第二个字符串。
    • insert 可选。插入一个字符的代价。默认是 1。
    • replace 可选。替换一个字符的代价。默认是 1。
    • delete 可选。删除一个字符的代价。默认是 1。
  • 相关阅读:
    alert
    自定义基类装载数据模块显示到dataGrid
    关于dataGrid查询按钮的实现
    如何查看oracle用户具有的权限和角色 大风起
    LoadRunner使用手册 大风起
    电脑蓝屏了,教你一招保证恢复 大风起
    oracle如何查看当前有哪些用户连接到数据库 大风起
    apache+tomcat整合(动静分离) 大风起
    cdn技术浅谈 大风起
    Tomcat性能优化总结 大风起
  • 原文地址:https://www.cnblogs.com/songgj/p/8746585.html
Copyright © 2020-2023  润新知