机器学习 MLIA学习笔记（二）之 KNN算法（一）原理入门实例

KNN=K-Nearest Neighbour

原理：我们取前K个相似的数据（排序过的）中概率最大的种类，作为预测的种类。通常，K不会大于20。

下边是一个简单的实例，具体的含义在注释中：

import numpy as np
import operator
import os

def createDataSet():
    group = np.array([[1.0, 1.1],[1.0, 1.0],[0, 0],[0, 0.1]])
    labels = ['A', 'A', 'B', 'B']
    return group, labels

def classify(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]#lines num; samples num
    diffMat = np.tile(inX, (dataSetSize,1)) - dataSet#dataSize*(1*inX)
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)#add as the first dim
    distances = sqDistances**0.5
    #return indicies array from min to max
    #this is an array
    sortedDistanceIndices = distances.argsort()
    #classCount={}
    classCount=dict()   #define a dictionary
    for i in range(k):
        voteIlabel = labels[sortedDistanceIndices[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1#get(key,default=none)
    #return a list like [('C',4),('B',3),('A',2)], not a dict
    #itemgetter(0) is the 1st element
    #default: from min to max
    sortedClassCount = sorted(classCount.iteritems(),
                              key=operator.itemgetter(1), reverse=True)                  
    return sortedClassCount[0][0]

相关阅读:
python学习笔记（十五）-- flask接口开发
python学习笔记（十四）-- requests接口调用
python学习笔记（十三）-- 日志、发送邮件、redis数据库
python学习笔记（十二）-- if __name__ == '__main__'
python学习笔记（十一）-- md5加密
python之操作excel：xlrd、xlwt、xlutiles、枚举函数enumerate()
python:加密模块
模块操作
python基础：函数传参、全局变量、局部变量、内置函数、匿名函数、递归、os模块、time模块、解包
【2019.6.2】python：json操作、函数、集合、random()、列表生成式、三元表达式

原文地址：https://www.cnblogs.com/AmitX-moten/p/4176598.html