系列文章:《机器学习实战》学习笔记
本章介绍了《机器学习实战》这本书中的第一个机器学习算法:k-近邻算法,它非常有效而且易于掌握。首先,我们将探讨k-近邻算法的基本理论,以及如何使用距离测量的方法分类物品;其次我们将使用Python从文本文件中导入并解析数据;再次,本文讨论了当存在许多数据来源时,如何避免计算距离时可能碰到的一些常见错误;最后,利用实际的例子讲解如何使用k-近邻算法改进约会网站和手写数字识别系统。
1. k-近邻算法概述
简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。
k-近邻算法
优点:精度高、对异常值不敏感、无数据输入假定。
缺点:计算复杂度高、空间复杂度高
适用数据范围:数值型和标称型
k-近邻算法(kNN)的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。
现在我们回到前面电影分类的例子,使用k-近邻算法分类爱情片和动作片。有人曾经统计过很多电影的打斗镜头和接吻镜头,图1显示了6部电影的打斗和接吻镜头数。假如有一部未看过的电影,如何确定它是爱情片还是动作片呢?我们可以使用kNN来解决这个问题。
图1 使用打斗和接吻镜头数分类电影
首先我们需要知道这个未知电影存在多少个打斗镜头和接吻镜头,图1中问号位置是该未知电影出现的镜头数图形化展示,具体数字参见下表。
表1 每部电影的打斗镜头数、接吻镜头数以及电影评估类型
电影名称 | 打斗镜头 | 接吻镜头 | 电影类型 |
California Man | 3 | 104 | 爱情片 |
He’s Not Really into Dudes | 2 | 100 | 爱情片 |
Beautiful Woman | 1 | 81 | 爱情片 |
Kevin Longblade | 101 | 10 | 动作片 |
Robo Slayer 3000 | 99 | 5 | 动作片 |
Amped II | 98 | 2 | 动作片 |
? | 18 | 90 | 未知 |
计算未知电影与样本集中其他电影的距离,我们可以比较其相似度:
表2 已知电影与未知电影的距离
电影名称 | 与未知电影的距离 |
California Man | 20.5 |
He’s Not Really into Dudes | 18.7 |
Beautiful Woman | 19.2 |
Kevin Longblade | 115.3 |
Robo Slayer 3000 | 117.4 |
Amped II | 118.9 |
现在我们得到了样本集中所有电影与未知电影的距离,按照距离递增排序,可以找到k个距离最近的电影。假定k=3,则三个最靠近的电影依次是He’s Not Really into Dudes、Beautiful Woman和California Man。k-近邻算法按照距离最近的三部电影的类型,决定未知电影的类型,而这三部电影全是爱情片,因此我们判定未知电影是爱情片。
k-近邻算法的一般流程
收集数据:可以使用任何方法。
准备数据:距离计算所需要的数值,最好是结构化的数据格式。
分析数据:可以使用任何方法。
测试算法:计算错误率。
使用算法:首先需要输入样本数据和结构化的输出结果,然后运行k-近邻算法判定输入数据分别属于哪个分类。
1.1 准备:使用Python导入数据
创建名为kNN.py的Python模块,在kNN.py文件中增加下面的代码:
from numpy import * import operator def createDataSet(): group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]) labels = ['A', 'A', 'B', 'B'] return group, labels
这个函数创建了我们将要使用的样例数据集。
在Python shell中输入下列命令测试上面的函数:
>>> import kNN >>> group, labels = kNN.createDataSet()
1.2 实施kNN算法
k-近邻算法的伪代码
对未知类型属性的数据集中的每个点依次执行以下操作:
(1) 计算已知类别数据集中的点与当前点之间的距离;
(2) 按照距离增序排序;
(3) 选取与当前点距离最近的k个点;
(4) 决定这k个点所属类别的出现频率;
(5) 返回前k个点出现频率最高的类别作为当前点的预测分类。
函数实现如下:
def classify(inX, dataSet, labels, k): dataSetSize = dataSet.shape[0] # 数据集大小 # 计算距离 diffMat = tile(inX, (dataSetSize, 1)) - dataSet sqDiffMat = diffMat**2 sqDistances = sqDiffMat.sum(axis=1) distances = sqDistances**0.5 # 按距离排序 sortedDistIndicies = distances.argsort() # 统计前k个点所属的类别 classCount = {} for i in range(k): votaIlabel = labels[sortedDistIndicies[i]] classCount[votaIlabel] = classCount.get(votaIlabel, 0) + 1 sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) # 返回前k个点中频率最高的类别 return sortedClassCount[0][0]
计算距离时直接使用了欧式距离公式,计算两个向量点之间的距离:
$ d=sqrt{(xA_0-xB_0)^2+(xA_1-xB_1)^2} $
计算完所有点之间的距离后,可以对数据按照从小到大的次序排序。然后,确定前k个距离最小元素所在的主要分类,输入k总是正整数;最后,将classCount字典分解为元组列表,然后按照第二个元素的次序对元组进行排序,最后返回发生频率最高的元素标签。
预测数据所在分类:
>>> kNN.classify([0, 0], group, labels, 3)
输出结果应该是B。
1.3 如何测试分类器
上文我们已经使用k-近邻算法构造了第一个分类器,也可以检验分类器给出的答案是否符合我们的预期。然而分类器并不会得到百分百正确的结果,我们可以使用多种方法检测分类器的正确率。
为了测试分类器的效果,我们可以使用已知答案的数据,当然答案不能告诉分类器,检验分类器给出的结果是否符合预期结果。通过大量的测试数据,我们可以得到分类器的错误率——分类器给出错误结果的次数除以测试执行的总数。错误率是常用的评估方法,主要用于评估分类器在某个数据集上的执行效果。完美分类器的错误率为0,最差分类器的错误率是1.0,在这种情况下,分类器根本就无法找到一个正确答案。然而错误率几乎不会达到1.0,因为即使是随机猜测,也会有一定概率猜对的。因此,错误率一般存在一个上限,且具体的值会与各类型之间的比例关系直接相关。
2. 示例:使用k-近邻算法改进约会网站的配对效果
我的朋友海伦一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的人选,但她并不是喜欢每一个人。经过一番总结,她发现曾交往过三种类型的人:
- 不喜欢的人
- 魅力一般的人
- 极具魅力的人
海伦希望我们的分类软件可以更好地帮助她将匹配对象划分到确切的分类中。此外海伦还收集了一些约会网站未曾记录的数据信息,她认为这些数据更有助于匹配对象的归类。
2.1 准备数据:从文本文件中解析数据
数据存放在文本文件datingTestSet.txt中,每个样本数据占据一行,总共有1000行。
海伦的样本主要包含以下3种特征:
- 每年获得的飞行常客里程数
- 玩视频游戏所耗时间百分比
- 每周消费的冰淇淋公升数
在将上述特征数据输入到分类器之前,必须将待处理数据的格式改变为分类器可以接受的格式。在kNN.py中创建名为file2matrix的函数,以此来处理输入格式问题。该函数的输入为文件名字符串,输出为训练样本矩阵和类标签向量。
def file2matrix(filename): fr = open(filename) arrayOLines = fr.readlines() numberOfLines = len(arrayOLines) returnMat = zeros((numberOfLines, 3)) classLabelVector = [] index = 0 for line in arrayOLines: line = line.strip() listFromLine = line.split(' ') returnMat[index,:] = listFromLine[0:3] classLabelVector.append(int(listFromLine[-1])) index += 1 return returnMat, classLabelVector
Python处理文本文件非常容易——
- 首先我们需要知道文本文件包含多少行。打开文件,得到文件的行数。
- 然后创建以零填充的矩阵。
- 循环处理文件中的每行数据,首先使用函数line.strip()截取掉所有的回车字符,然后使用tab字符 将上一步得到的整行数据分割成一个元素列表。
- 接着,我们选取前3个元素,将它们存储到特征矩阵中。
- Python语言可以使用索引值-1表示列表中的最后一列元素,利用这种负索引,我们可以很方便地将列表的最后一列存储到向量classLabelVector中。
测试代码:
>>> datingDataMat, datingLabels = kNN.file2matrix('datingTestSet.txt') >>> datingDataMat >>> datingLabels
2.2 分析数据:使用Matplotlib创建散点图
我们使用Matplotlib制作原始数据的散点图,在Python命令行环境中,输入下列命令:
>>> import matplotlib >>> import matplotlib.pyplot as plt >>> fig = plt.figure() >>> ax = fig.add_subplot(111) >>> ax.scatter(datingDataMat[:,1], datingDataMat[:,2]) >>> plt.show()
散点图使用datingDataMat矩阵的第二、第三列数据,分别表示特征值“玩视频游戏所耗时间百分比”和“每周所消费的冰淇淋公升数”。
图3 没有样本类别标签的约会数据散点图
重新输入上面的代码,在调用scatter函数时使用下列参数:
>>> ax.scatter(datingDataMat[:,1], datingDataMat[:,2], 15.0 * array(datingLabels), 15.0 * array(datingLabels))
上述代码利用变量datingLabels存储的类标签属性,在散点图上绘制了色彩不等、尺寸不同的点。
利用颜色及尺寸标识了数据点的属性类别,因而我们基本上可以从图4中看到数据点所属三个样本分类的区域轮廓。
图4 带有样本分类标签的约会数据散点图
而下图采用列1和2的属性值可以得到更好的效果:
图5 每年赢得的飞行常客里程数与玩视频游戏所占百分比的约会数据散点图
2.3 准备数据:归一化数值
不同特征值有不同的均值和取值范围,如果直接使用特征值计算距离,取值范围较大的特征将对距离计算的结果产生绝对得影响,而使较小的特征值几乎没有作用,近乎没有用到该属性。如两组特征:{0, 20000, 1.1}和{67, 32000, 0.1},计算距离的算式为:
$ sqrt{(0-67)^2+(20000-32000)^2+(1.1-0.1)^2} $
显然第二个特征将对结果产生绝对得影响,第一个特征和第三个特征几乎不起作用。
然而,对于识别的过程,我们认为这不同特征是同等重要的,因此作为三个等权重的特征之一,飞行常客里程数并不应该如此严重地影响到计算结果。
在处理这种不同取值范围的特征值时,我们通常采用的方法是将数值归一化,如将取值范围处理为0到1或者1到1之间。下面的公式可以将任意取值范围的特征值转化为0到1区间内的值:
newValue = (oldValue – min) / (max – min)
其中min和max分别是数据集中的最小特征值和最大特征值。
添加autoNorm()函数,用于将数字特征值归一化:
def autoNorm(dataSet): minVals = dataSet.min(0) # 分别求各个特征的最小值 maxVals = dataSet.max(0) # 分别求各个特征的最大值 ranges = maxVals – minVals # 各个特征的取值范围 normDataSet = zeros(shape(dataSet)) m = dataSet.shape[0] normDataSet = dataSet - tile(minVals, (m, 1)) normDataSet = normDataSet / tile(ranges, (m, 1)) return normDataSet, ranges, minVals
对这个函数,要注意返回结果除了归一化好的数据,还包括用来归一化的范围值ranges和最小值minVals,这将用于对测试数据的归一化。
注意,对测试数据集的归一化过程必须使用和训练数据集相同的参数(ranges和minVals),不能针对测试数据单独计算ranges和minVals,否则将造成同一组数据在训练数据集和测试数据集中的不一致。
查看经过归一化后的数据:
>>> normMat, ranges, minVals = kNN.autoNorm(datingDataMat) >>> normMat >>> ranges >>> minVals
2.4 测试算法:作为完整程序验证分类器
机器学习算法一个很重要的工作就是评估算法的正确率,通常我们只提供已有数据的90%作为训练样本来训练分类器,而使用其余的10%数据去测试分类器,检测分类器的正确率。需要注意的是,10%的测试数据应该是随机选择的。由于海伦提供的数据并没有按照特定目的来排序,所以我们可以随意选择10%数据而不影响其随机性。
创建分类器针对约会网站的测试代码:
def datingClassTest(): hoRatio = 0.10 datingDataMat, datingLabels = file2matrix('datingTestSet.txt') normMat, ranges, minVals = autoNorm(datingDataMat) m = normMat.shape[0] numTestVecs = int(m * hoRatio) errorCount = 0.0 for i in range(numTestVecs): classifierResult = classify(normMat[i,:], normMat[numTestVecs:m,:], datingLabels[numTestVecs:m], 3) print "The classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i]) if (classifierResult != datingLabels[i]): errorCount += 1.0 print "The total error rate is %f" % (errorCount / float(numTestVecs))
执行分类器测试程序:
>>> kNN.datingClassTest()
分类器处理约会数据集的错误率是2.4%,这是一个相当不错的结果。我们可以改变函数datingClassTest内变量hoRatio和变量k的值,检测错误率是否随着变量值的变化而增加。
这个例子表明我们可以正确地预测分类,错误率仅仅是2.4%。海伦完全可以输入未知对象的属性信息,由分类软件来帮助她判定某一对象的可交往程度:讨厌、一般喜欢、非常喜欢。
2.5 使用算法:构建完整可用系统
综合上述代码,我们可以构建完整的约会网站预测函数:
def classifyPerson(): resultList = ['not at all', 'in small doses', 'in large doses'] percentTats = float(raw_input("Percentage of time spent playing video game?")) ffMiles = float(raw_input("Frequent flier miles earned per year?")) iceCream = float(raw_input("Liters of ice cream consumed per year?")) datingDataMat, datingLabels = file2matrix('datingTestSet.txt') normMat, ranges, minVals = autoNorm(datingDataMat) inArr = array([ffMiles, percentTats, iceCream]) classifierResult = classify((inArr - minVals) / ranges, normMat, datingLabels, 3) print "You will probably like this person: ", resultList[classifierResult - 1]
为了解程序的实际运行效果,输入如下命令:
>>> kNN.classifyPerson()
percentage of time spent playing video games? 10
frequent flier miles earned per year? 10000
liters of ice cream consumed per year? 0.5
You will probably like this person: in small doses
其中的粗体字是用户的输入。
目前为止,我们已经看到如何在数据上构建分类器。
3. 示例:手写识别系统
4. 小结
k-近邻算法是分类数据最简单最有效的算法,本章通过两个例子讲述了如何使用k-近邻算法构造分类器。k-近邻算法是基于实例的学习,使用算法时我们必须有接近实际数据的训练样本数据。k-近邻算法必须保存全部数据集,如果训练数据集的很大,必须使用大量的存储空间。此外,由于必须对数据集中的每个数据计算距离值,实际使用时可能非常耗时。
k-近邻算法的另一个缺陷是它无法给出任何数据的基础结构信息,因此我们也无法知晓平均实例样本和典型实例样本具有什么特征。下一章我们将使用概率测量方法处理分类问题,该算法可以解决这个问题。