• 编辑距离算法


    编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。

    例如将kitten一字转成sitting:

    目标:kitten->sitting
       sitten (k→s) 将k替换成s    sittin (e→i)   将e替换成i    sitting (→g)   插入 g

    算法思想:动态规划经常被用来作为这个问题的解决手段。

    首先需要定义这样一个函数——D(i, j),它表示第一个字符串的长度为i的子串到第二个字符串的长度为j的子串的编辑距离。

    显然可以有如下动态规划公式:

    if i == 0 且 j == 0,D(i, j)= 0
    if i == 0 且 j > 0,D(i, j) = j
    if i > 0  且j == 0,D(i, j) = i
    if i ≥ 1  且 j ≥ 1 ,D(i, j) == min{ D(i-1, j) + 1, D(i, j-1) + 1, D(i-1, j-1) + f(i, j) }//当第一个字符串的第i个字符不等于第二个字符串的第j个字符时,f(i, j) = 1;否则,f(i, j) = 0。

    kitten一字转成sitting,根据公式,可以得到

    当i=0: D(0,0)=0,D(0,1)=1,D(0,2)=2,D(0,j)=j     执行insert操作(待转换字符串为空,需要转换为sitting,需要7步,插入7个字符,代价为7)
    
    当j=0: D(0,0)=0,D(1,0)=1,D(2,1)=2,D(i,0)=i     执行delete操作(待转换的字符为kitten,需要转换为空,需要6步,删除6个字符,最小代价为6)
    
    当i>>1,j>>1: D(1,1)=min(D(0,1)+1,D(1,0)+1,D(0,0)+f(1,1))  执行替换操作,D(1,1)=D(0,0)+f(1,1), 因为s!=k故f(1,1)=1  D(1,1)的最小代价为1

    因此可以推出,kitten一字转成sitting的编辑矩阵:

    因此可以得到伪代码如下:

    Java代码实现如下:

    package com.editDistance;
    public class EditDistance {
    
        public static void main(String[] args)
        {
            String str1="kitten";
            String str2="sitting";
            int res=getEditDistance(str1,str2);
            System.out.println("最小编辑距离是:"+res);
        }
        
        private static int min(int a,int b)
        {
            return a<b?a:b;
        }
        
        public static int getEditDistance(String str1,String str2)
        {
            int len1=str1.length();
            int len2=str2.length();
            int m[][]=new int[len1+1][len2+1];
            
            for(int i=0;i<len1+1;i++)
            {
                m[i][0]=i;
            }
            for(int j=0;j<len2+1;j++)
            {
                m[0][j]=j;
            }
            for(int i=1;i<len1+1;i++)
            {
                for(int j=1;j<len2+1;j++)
                {
                    int temp=min(m[i-1][j]+1,m[i][j-1]+1);
                    int d;
                    //注意这里是str1.charAt(i-1),因为字符串是从charAt(0)下标开始的
                    if(str1.charAt(i-1)==str2.charAt(j-1))
                    {
                        d=0;
                    }
                    else
                    {
                        d=1;
                    }
                    
                    m[i][j]=min(temp,m[i-1][j-1]+d);
                }
            }
            System.out.println("编辑矩阵是:");
            System.out.println("****************");
            for(int i=0;i<len1+1;i++)
            {
                for(int j=0;j<len2+1;j++)
                {
                    System.out.print(m[i][j]+" ");
                }
                System.out.println();
            }
            System.out.println("****************");
            
            return m[len1][len2];
        }
        
    }
    View Code

    运行结果:

     http://zh.wikipedia.org/wiki/%E7%B7%A8%E8%BC%AF%E8%B7%9D%E9%9B%A2

     http://files.cnblogs.com/qianwen/Edit_Distance.pdf

  • 相关阅读:
    MySQL for Linux错误: ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES)
    Git SSH Key 生成步骤
    百度陆奇最新内部演讲:如何成为一个优秀的工程师?
    Apple使用Apache Mesos重建Siri后端服务
    剖析Elasticsearch集群系列第一篇 Elasticsearch的存储模型和读写操作
    ElasticSearch VS Solr
    聊聊基于Lucene的搜索引擎核心技术实践
    如何安全的存储用户密码?
    MySQL 性能管理及架构设计指南
    大牛是怎么思考设计MySQL优化方案
  • 原文地址:https://www.cnblogs.com/qianwen/p/3873223.html
Copyright © 2020-2023  润新知