KNN算法

KNN算法

K-最邻近算法总结

1.基本介绍

     K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

      KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

      KNN算法不仅可以用于分类，还可以用于回归。通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight)，如权值与距离成正比。

　　该算法在分类时有个主要的不足是，当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本，某一类的样本数量很大，那么或者这类样本并不接近目标样本，或者这类样本很靠近目标样本。无论怎样，数量并不能影响运行结果。可以采用权值的方法（和该样本距离小的邻居权值大）来改进。该方法的另一个不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。

2.算法描述

       K-近邻算法的思想如下：首先，计算新样本与训练样本之间的距离，找到距离最近的K个邻居；然后，根据这些邻居所属的类别来判定新样本的类别，如果它们都属于同一个类别，那么新样本也属于这个类；否则，对每个后选类别进行评分，按照某种规则确定新样本的类别。

       取未知样本X的K个近邻，看着K个近邻多数属于哪一类，就把X分为哪一类。即，在X的K个样本中，找出X的K个近邻。K-近邻算法从测试样本X开始生长，不断的扩大区域，直到包含进K个训练样本，并且把测试样本X的类别归为着最近的K个训练样本中出现频率最大的类别。例如，下图图中绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类

算法伪代码：

搜索k个近邻的算法：kNN(A[n],k)

输入：A[n]为N个训练样本在空间中的坐标，k为近邻数

输出：x所属的类别

取A[1]~A[k]作为x的初始近邻，计算与测试样本x间的欧式距离d（x,A[i]）,i=1,2,.....,k；按d（x，A[i]）升序排序，计算最远样本与x间的距离D<-----max{d(x,a[j]) | j=1,2,.....,k};

for(i=k+1;i<=n;i++)

       计算a[i]与x间的距离d(x,A[i]);

       if(d(x,A[i]))<D

              then 用A[i]代替最远样本

     按照d(x,A[i])升序排序，计算最远样本与x间的距离D<---max{d(x,A[j]) | j=1,...,i };计算前k个样本A[i]),i=1,2,...,k所属类别的概率，具有最大概率的类别即为样本x的类
相关阅读:
UT斯达康 G680手机那些事儿
 VoIP使用总结
 Test
Remove "Click here to enable Instant Search"
常用的在线播放（电台和电视台）
Sipdroid Error “Registration failed (404 not found)”
通过Word 2007发布Blog
【Go反射】读取对象
 【Go反射】修改对象
 【爬虫】callback=jQuery+数字在爬虫中如何模拟
原文地址：https://www.cnblogs.com/cl1024cl/p/6205289.html

K-最邻近算法总结