机器学习——kNN（1）基本原理

机器学习——kNN（1）基本原理
=================================版权声明=================================

版权声明：原创文章禁止转载

请通过右侧公告中的“联系邮箱（wlsandwho@foxmail.com）”联系我

勿用于学术性引用。

勿用于商业出版、商业印刷、商业引用以及其他商业用途。　　　　　　　　　　　　　　　　

本文不定期修正完善。

本文链接：http://www.cnblogs.com/wlsandwho/p/7512119.html

耻辱墙：http://www.cnblogs.com/wlsandwho/p/4206472.html

=======================================================================

很显然我没有足够的巩俐，啊功力去讲解机器学习的大道理，但是我愿意把我的读书笔记分享出来。

当然，我保留版权。

=======================================================================

关于kNN算法的伪代码描述，我这里得写一下，因为《机器学习实践》这本书里写的不是很清楚。（当然我的用词更通俗，毕竟不能照抄原文啊:）

1 　　计算目标点与数据集中每个点的距离。

　　这个求距离的算法应当是根据实际情况具体问题具体分析采取的。书中使用的是欧几里德几何体系里的两点之间的距离。对，就是初中学的那个。

2　　对距离的结果按照从小到大的顺序排序。

　　这里要记录哪个结果是由哪个点产生的。总不能排序之后结果排序了，但是对应点找不到了吧？

3　　从结果中取前k个点。

　　kNN算法之所以叫kNN算法，是因为它选取了前k个点。　

4　　记录这k个点对应类别的频率。

　　比方说在这k个点中，a类出现了5次，b类出现了2次，c类出现了7次

5　　取出现频率最高的类别作为结果。

　　通俗地讲，就是发现跟a有5成像，跟b有2成像，跟c有7成像。当然是选最像的啦。

=======================================================================

话是这么说，看起来也很简单。但是用指定的编程语言实现，就得看对于该语言的熟练程度了。

比方说，我用C++写的话，比较麻烦的地方是矩阵运算，其他就很简单了。

但是用Python的话，我需要熟悉相关的类库和代码。

=======================================================================

对于我这种只看过《Python编程：从入门到实践》的人来说，看《机器学习与实践》的代码还是要查资料的。

要理解下面的内容：

1　　tile（x,(m,n)）

　　通俗的说就是把指定的块x，按行复制m次，按列复制n次。m和n是可以取0的，但这没有意义，因为把没有复制了0次，还是没有啊:)

　　为什么我说的是块x呢？因为这个x可以是一个数，也可以是一个矩阵。对，大学线性代数课程里对矩阵运算时，就是可以把某一部分看成一个子矩阵的。这个同理。

2　　x.sum(axis=？)

　　手册上说，是垂直求和还是水平求和。

3　　a.argsort()

　　这个得画个图。一图胜千言。输入5316，输出2103。

贴出示例小代码有助于理解。毕竟我们用事实说话。
```
 1 from numpy import *
 2 import operator
 3 
 4 
 5 r=array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
 6 rows=r.shape[0]
 7 print(rows)
 8 
 9 x=[5,6]
10 xxx=tile(x,(3,2))
11 print(xxx)
12 
13 a=array([5,3,1,6])
14 #1,3, 5, 6
15 #2,1, 0, 3
16 b=a.argsort()
17 print(b)
18 print(b[0])
19 
20 c={}
21 c['c']=1
22 c["b"]=2
23 c["a"]=1
24 c["a"]=c.get('a')+5
25 print(c["a"])
26 
27 d=sorted(c.items(),key=operator.itemgetter(1),reverse=True)
28 print(d)
29 print(d[0][0])
30 
31 mm=array([[1,2,3],[5,6,7]])
32 print(mm.sum(axis=0))
33 print(mm.sum(axis=1))
```
=======================================================================

好了，可以贴我的kNN代码了。Python的风格不习惯，随手写了下。
```
 1 from numpy import *
 2 import operator
 3 
 4 
 5 def create_data_set():
 6     group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
 7     labels=["A","A","B","B"]
 8 
 9     return group,labels
10 
11 def classify_kNN(dest,sample,labels,k):
12     rows=sample.shape[0]
13     dests=tile(dest,(rows,1))
14     res=(((dests-sample)**2).sum(axis=1))**0.5
15     resrank=res.argsort()
16 
17     clfy={}
18 
19     for i in range(k):
20         index=resrank[i]
21         sometype=labels[index]
22         clfy[sometype]=clfy.get(sometype,0)+1
23 
24     sclfy=sorted(clfy.items(),key=operator.itemgetter(1),reverse=True)
25 
26     return sclfy[0][0]
```
这是算法。

下面是调用。
```
1 g,l=create_data_set()
2 r=classify_kNN([0.5,0.6],g,l,2)
3 print(r)
```
这个是结果

=======================================================================

那么问题来了：

新分类值是否可以加入样本扩充原来的数据？
相关阅读:
实习记录2
实习记录1
silverlight中 Storyboard(动画)的使用，实现球的上下循环移动，左右移动，及旋转功能
 实习记录7（正则表达式）
SilverLight 控件ListBox中的SelectionChanged事件
 OpenStack collectd的从零安装服务端
 OpenStack 的防火墙规则流程
 OpenStack 的NAT解决办法
 OpenStack 界面开发中的排序问题
 OpenStack 界面开发中response.body的中文编码问题
原文地址：https://www.cnblogs.com/wlsandwho/p/7512119.html