Matlab 实现对码功能

Matlab 实现对码功能
1、什么叫对码？

举例说明，数据库中有两张表。

表 1：
```
编号 描述

11 儿科门诊

22 妇科门诊

33 产科门诊
```
表 2：
```
编号 描述

111 儿科门诊

222 妇科门诊

333 产科门诊
```
现在要在表 1 和表 2 之间找到一一对应。比如：
```
编号1 编号2

11 111

22 222

33 333
```
这就是对码。

是不是很简单？只要 select 出两个表中描述相同的编号就可以了。但如果两个表的描述并不是那么准确相等呢？譬如一个是「产科」，一个是「妇产科」，怎么找到匹配呢？有人会说用 like '%产科%' 模糊匹配，用存储过程也能实现，但你怎么知道哪个表的描述内容少呢，该 like 哪个表字段呢？还有，如果一个是「妇科」，一个是「妇产科」呢？这个想当然地用 like 肯定是不行了。这个时候就要找个方法来计算两个字符串的相似度或者匹配度，选择相似度最高的数据来做匹配。

对码这种需求其实是很常见的。比如，现有运行的系统里用的是表 1，现在上级部门要求你给它定期传数据，而且要求科室编号用表 2，一般情况下不可能直接在自己运行良好的系统里贸然用表 2 替换表 1，只有新建个表 1 和表 2 的对码表，在提取的时候对表 1 的编号做个替换。而且经常表 1 和表 2 的描述还不完全相同，这个对码就是个问题。

对码可以手工对，用自己的眼睛一个一个找，那么当数据量很大时，这将是场灾难。所以，正常点儿的工程师都会写程序先实现初级的字符串匹配，然后再人工检查，纠正程序处理不了的错误。

本文介绍的就是如何利用字符串相似度的知识来做这个对码。

2、对码，有很多方法可以实现。比如我相信一些对 SQL 高手可以轻松用存储过程实现。我这里是先把表 1 和表 2 读取到文本里，然后用 Matlab 读取并做匹配，再将匹配结果写入到新文本里。当然，这个用 Python、R 语言也可以轻松实现，很简单。我这里选择 Matlab 只是因为自己最近用得多点儿。

文本1：HIS.txt
```
992    心血管儿科
993    血液儿科
994    新生儿科
995    感染儿科
996    妇科门诊
997    产科门诊
```
文本2：YY.txt
```
1008    生殖医学中心IVF
1307    妇科化疗
1036    妇科ICU
1004    产科
1303    妇科
1302    妇产科门诊
1030    妇产科教研室
1093    妇产科
```
Matlab 代码如下：
```
[YYcode,YYdesc]=textread('YY.txt','%s%s');
yylen=length(YYcode);
[hiscode,hisdesc]=textread('HIS.txt','%s%s');
hislen=length(hiscode);
HISyy=cell(1,4);
HISyy{1}=hiscode;
HISyy{2}=hisdesc;
for i=1:1:hislen
index=1;
simMax=0;
for j=1:1:yylen
simValue=levenshtein(hisdesc{i},yydesc{j});
if simValue>simMax
simMax=simValue;
index=j;
end
end
HISyy{3}{i}=YYcode{index};
HISyy{4}{i}=YYdesc{index};
end

fp = fopen('HIS-yy.txt','wt');
for i=1:1:hislen
fprintf(fp,'%s	',HISyy{1}{i});
fprintf(fp,'%s	',HISyy{2}{i});
fprintf(fp,'%s	',HISyy{3}{i});
fprintf(fp,'%s
',HISyy{4}{i});
end
fclose(fp);
```
其中 levenshtein 函数是计算两个字符串的相似度，用的是「最小编辑距离」。

levenshtein.m。该代码来自网络：http://download.csdn.net/detail/zc0928/4783710
function re=levenshtein(ch1,ch2) n=length(ch1); m=length(ch2); if n==0 LD=m; end; if m==0 LD=n; end; A=zeros(n+1,m+1); for ii=1:n+1 A(ii,1)=ii-1; end; for ii=1:m+1; A(1,ii)=ii-1; end; for ii=2:m+1 for j=2:n+1 if ch2(ii-1)==ch1(j-1) cost=0; else cost=1; end; a=A(j-1,ii)+1; b=A(j,ii-1)+1; c=A(j-1,ii-1)+cost; d=min(a,b); A(j,ii)=min(c,d); end; end; LD=A(n+1,m+1); re = (max(n,m) - LD)/max(n,m);
View Code
生成的对码文件：HIS-yy.txt
```
990    普儿一区    1407    普儿一科
991    普儿二区    1048    普儿二科
992    心血管儿科    1405    心血管科
993    血液儿科    1046    新生儿科
994    新生儿科    1406    新生儿科
995    感染儿科    3046    感染管理科
```
3、Matlab 处理流程

首先读取两个表的文本，并计算数据个数。
```
[YYcode,YYdesc]=textread('YY.txt','%s%s');
yylen=length(YYcode);
[hiscode,hisdesc]=textread('HIS.txt','%s%s');
hislen=length(hiscode);
```
然后创建元胞数组，并把第一个文件的值复制进去。注意元胞数组的使用，这里创建了 1 行 4 列的元胞数组，每个元素又可以存储任意个字符串数组，每个元素的类型跟上面的 YYcode 和 YYdesc 一样。
```
HISyy=cell(1,4);
HISyy{1}=hiscode;
HISyy{2}=hisdesc;
```
接下来遍历第一个文件中的每一个描述，将该描述字符串同第二个文本中的每一个描述做匹配，计算相似度，最终取得相似度最高的存到元胞数组的第三列和第四列。
```
for i=1:1:hislen
index=1;
simMax=0;
for j=1:1:yylen
simValue=levenshtein(hisdesc{i},yydesc{j});
if simValue>simMax
simMax=simValue;
index=j;
end
end
HISyy{3}{i}=YYcode{index};
HISyy{4}{i}=YYdesc{index};
end
```
最后将 HISyy中的结果写入文件 HIS-yy.txt。
```
fp = fopen('HIS-yy.txt','wt');
for i=1:1:hislen
fprintf(fp,'%s	',HISyy{1}{i});
fprintf(fp,'%s	',HISyy{2}{i});
fprintf(fp,'%s	',HISyy{3}{i});
fprintf(fp,'%s
',HISyy{4}{i});
end
fclose(fp);
```
相关阅读:
作一份高水准的简历
 使用该JavaBean可以将数据在JSP页面中以表格的形式显示出来，并具有动态排序动态生成查询自动分页功能
 javah命令 C Header and Stub File Generator
Java内部类（Inner Class）
集合（Collection）与迭代器（Iterator）
Mysql数据库从本地导出服务器上导入时报 ERROR 2005 HY000 Unknown MySQL ser
Cassandra操作入门
 表示不同文件类型的魔术数字
 JAVA中實現鏈表--LinkedList的使用
 在oracle数据库中如何插入CLOB值
原文地址：https://www.cnblogs.com/NaughtyBaby/p/4972678.html