采用测量不同特征之间距离的方法进行分类
优点:精度高,对异常不敏感,无数据输入假定
缺点:计算复杂度高,空间复杂度高
适用:数值型,标称型
原理:存在一个样本数据集,其中每一个数据都存在标签(分类)即训练集中每个数据与所属分类对应关系已知。
输入无标签(分类标签)数据,将新数据的每个特征(数值)与样本集中的数据对应特征进行比较(计算距离),然后算法提取样本集中特征最相似(距离最近)的数据的分类标签,一般选取样本集中前K(k<=20)个最相似的数据(按距离排序),以出现次数最多的分类作为新数据的分类。