第5章回归算法
在实际任务中经常需要预测一个指标,例如去银行贷款,银行会根据个人信息返回一个贷款金额,这就是回归问题。还有一种情况就是银行会不会发放贷款的问题,也就是分类问题。回归算法是机器学习中经典的算法之一,本章主要介绍线性回归与逻辑回归算法,分别对应回归与分类问题,并结合梯度下降优化思想进行参数求解。
5.1线性回归算法
线性回归是回归算法中最简单、实用的算法之一,在机器学习中很多知识点都是通用的,掌握一个算法相当于掌握一种思路,其他算法中会继续沿用的这个思路。
假设某个人去银行准备贷款,银行首先会了解这个人的基本信息,例如年龄、工资等,然后输入银行的评估系统中,以此决定是否发放贷款以及确定贷款的额度,那么银行是如何进行评估的呢?下面详细介绍银行评估系统的建模过程。假设表5-1是银行贷款数据,相当于历史数据。
表5-1 银行贷款数据
银行评估系统要做的就是基于历史数据建立一个合适的回归模型,只要有新数据传入模型中,就会返回一个合适的预测结果值。在这里,工资和年龄都是所需的数据特征指标,分别用x1和x2表示,贷款额度就是最终想要得到的预测结果,也可以叫作标签,用y表示。其目的是得到x1、x2与y之间的联系,一旦找到它们之间合适的关系,这个问题就解决了。
5.1.1线性回归方程
目标明确后,数据特征与输出结果之间的联系能够轻易得到吗?在实际数据中,并不是所有数据点都整齐地排列成一条线,如图5-1所示。
图5-1 数据点分布情况
圆点代表输入数据,也就是用户实际得到的贷款金额,表示真实值。平面代表模型预测的结果,表示预测值。可以观察到实际贷款金额是由数据特征x1和x2共同决定的,由于输入的特征数据都会对结果产生影响,因此需要知道x1和x2对y产生多大影响。我们可以用参数θ来表示这个含义,假设θ1表示年龄的参数,θ2表示工资的参数,拟合的平面计算式如下:
既然已经给出回归方程,那么找到最合适的参数θ这个问题也就解决了。
再强调一点,θ0为偏置项,但是在式(5.1)中并没有θ0x0项,那么如何进行整合呢?
在进行数值计算时,为了使得整体能用矩阵的形式表达,即便没有x0项也可以手动添加,只需要在数据中加入一列x0并且使其值全部为1即可,结果不变。
5.1.2误差项分析
看到这里,大家有没有发现一个问题——回归方程的预测值和样本点的真实值并不是一一对应的,如图5-1所示。说明数据的真实值和预测值之间是有差异的,这个差异项通常称作误差项ε。它们之间的关系可以这样解释:在样本中,每一个真实值和预测值之间都会存在一个误差。
其中,i为样本编号;θTx(i)为预测值;y(i)为真实值。
关于这个误差项,它的故事就多啦,接下来所有的分析与推导都是由此产生的。先把下面这句看起来有点复杂的解释搬出来:误差ε是独立且具有相同的分布,并且服从均值为0方差为θ2的高斯分布。突然搞出这么一串描述,可能大家有点懵,下面分别解释一下。
所谓独立,例如,张三和李四一起来贷款,他俩没关系也互不影响,这就是独立关系,银行会平等对待他们(张三来银行跟银行工作人员说:“后面那是我兄弟,你们得多贷给他点钱。”银行会理他吗?)。
相同分布是指符合同样的规则,例如张三和李四分别去农业银行和建设银行,这就很难进行对比分析了,因为不同银行的规则不同,需在相同银行的条件下来建立这个回归模型。
高斯分布用于描述正常情况下误差的状态,银行贷款时可能会多给点,也可能会少给点,但是绝大多数情况下这个浮动不会太大,比如多或少三五百元。极少情况下浮动比较大,例如突然多给20万,这种可能性就不大。图5-2是高斯分布曲线,可以发现在均值两侧较近地方的可能性较大,越偏离的情况可能性就越小。
图5-2 高斯分布
这些知识点不是线性回归特有的,基本所有的机器学习算法的出发点都在此,由此也可以展开分析,数据尽可能取自相同的源头,当拿到一份数据集时,建模之前肯定要进行洗牌操作,也就是打乱其顺序,让各自样本的相关性最低。
高斯分布也就是正态分布,是指数据正常情况下的样子,机器学习中会经常用到这个概念。
5.1.3似然函数求解
现在已经对误差项有一定认识了,接下来要用它来实际干点活了,高斯分布的表达式为:
大家应该对这个公式并不陌生,但是回归方程中要求的是参数θ,这里好像并没有它的影子,没关系来转换一下,将y(i)=θTx(i)+ε(i)代入式(5.3),可得:
该怎么理解这个公式呢?先来给大家介绍一下似然函数:假设参加超市的抽奖活动,但是事前并不知道中奖的概率是多少,观察一会儿发现,前面连着10个参与者都获奖了,即前10个样本数据都得到了相同的结果,那么接下来就会有100%的信心认为自己也会中奖。因此,如果超市中奖这件事受一组参数控制,似然函数就是通过观察样本数据的情况来选择最合适的参数,从而得到与样本数据相似的结果。
现在解释一下式(5.4)的含义,基本思路就是找到最合适的参数来拟合数据点,可以把它当作是参数与数据组合后得到的跟标签值一样的可能性大小(如果预测值与标签值一模一样,那就做得很完美了)。对于这个可能性来说,大点好还是小点好呢?当然是大点好了,因为得到的预测值跟真实值越接近,意味着回归方程做得越好。所以就有了极大似然估计,找到最好的参数θ,使其与X组合后能够成为Y的可能性越大越好。
下面给出似然函数的定义:
其中,i为当前样本,m为整个数据集样本的个数。
此外,还要考虑,建立的回归模型是满足部分样本点还是全部样本点呢?应该是尽可能满足数据集整体,所以需要考虑所有样本。那么如何解决乘法问题呢?一旦数据量较大,这个公式就会相当复杂,这就需要对似然函数进行对数变换,让计算简便一些。
如果对式(5.5)做变换,得到的结果值可能跟原来的目标值不一样了,但是在求解过程中希望得到极值点,而非极值,也就是能使L(θ)越大的参数θ,所以当进行变换操作时,保证极值点不变即可。
在对数中,可以将乘法转换成加法,即log(A·B)=logA+logB。
对式(5.5)两边计算其对数结果,可得:
一路走到这里,公式变换了很多,别忘了要求解的目标依旧是使得式(5.6)取得极大值时的极值点(参数和数据组合之后,成为真实值的可能性越大越好)。先来观察一下,在减号两侧可以分成两部分,左边部分可以当作一个常数项,因为它与参数θ没有关系。对于右边部分来说,由于有平方项,其值必然恒为正。整体来看就是要使得一个常数项减去一个恒正的公式的值越大越好,由于常数项不变,那就只能让右边部分越小越好,可以认为1/σ是一个常数,故只需让越小越好,这就是最小二乘法。
虽然最后得到的公式看起来既简单又好理解,就是让预测值和真实值越接近越好,但是其中蕴含的基本思想还是比较有学习价值的,对于理解其他算法也是有帮助的。
在数学推导过程中,建议大家理解每一步的目的,这在面试或翻阅资料时都是有帮助的。
5.1.4线性回归求解
搞定目标函数后,下面讲解求解方法,列出目标函数列如下:
既然要求极值(使其得到最小值的参数θ),对式(5.7)计算其偏导数即可:
经过一系列的矩阵求导计算就得到最终的结果(关于矩阵求导知识,了解即可),但是,如果式(5.8)中矩阵不可逆会怎么样?显然那就得不到结果了。
其实大家可以把线性回归的结果当作一个数学上的巧合,真的就是恰好能得出这样一个值。但这和机器学习的思想却有点矛盾,本质上是希望机器不断地进行学习,越来越聪明,才能找到最适合的参数,但是机器学习是一个优化的过程,而不是直接求解的过程。
5.2梯度下降算法
机器学习的核心思想就是不断优化寻找更合适的参数,当给定一个目标函数之后,自然就是想办法使真实值和预测值之间的差异越小越好,那么该怎么去做这件事呢?可以先来想一想下山问题(见图5-3)。
为什么是下山呢?因为在这里把目标函数比作山,到底是上山还是下山问题,取决于你优化的目标是越大越好(上山)还是越小越好(下山),而基于最小二乘法判断是下山问题。
那该如何下山呢?看起有两个因素可控制——方向与步长,首先需要知道沿着什么方向走,并且按照该方向前进,在山顶大致一看很多条路可以下山,是不是随便选择一个差不多的方向呢?这好像有点随意,随便散散步就下山了。但是现在情况有点紧急,目标函数不会让你慢慢散步下去,而是希望能够快速准确地到达山坡最低点,这该怎么办呢?别着急——梯度下降算法来了。
图5-3 下山问题
5.2.1下山方向选择
首先需要明确的是什么方向能够使得下山最快,那必然是最陡峭的,也就是当前位置梯度的反方向(目标函数J(θ)关于参数θ的梯度是函数上升最快的方向,此时是一个下山问题,所以是梯度的反方向)。当沿着梯度方向下山的时候,位置也在不断发生变化,所以每前进一小步之后,都需要停下来再观察一下接下来的梯度变成什么方向,每次前进都沿着下山最快的也就是梯度的反方向进行(见图5-4)。
图5-4 梯度方向
到这里相信大家已经对梯度下降有了一个直观的认识了,总结一下,就是当要求一个目标函数极值的时候,按照机器学习的思想直接求解看起来并不容易,可以逐步求其最优解。首先确定优化的方向(也就是梯度),再去实际走那么一步(也就是下降),反复执行这样的步骤,就慢慢完成了梯度下降任务,每次优化一点,累计起来就是一个大成绩。
在梯度下降过程中,通常每一步都走得很小心,也就是每一次更新的步长都要尽可能小,才能保证整体的稳定,因为如果步长过大,可能偏离合适的方向。
5.2.2梯度下降优化
还记得要优化的目标函数吧:,目标就是找到最合适的参数θ,使得目标函数值最小。这里x是数据,y是标签,都是固定的,所以只有参数θ会对最终结果产生影响,此外,还需注意参数θ并不是一个值,可能是很多个参数共同决定了最终的结果,如图5-5所示。
图5-5 目标函数优化
当进行优化的时候,该怎么处理这些参数呢?其中θ0与θ1分别和不同的数据特征进行组合(例如工资和年龄),按照之前的想法,既然x1和x2是相互独立的,那么在参数优化的时候自然需要分别考虑θ0和θ1的情况,在实际计算中,需要分别对θ0和θ1求偏导,再进行更新。
下面总结一下梯度下降算法。
- 第①步:找到当前最合适的方向,对于每个参数都有其各自的方向。
- 第②步:走一小步,走得越快,方向偏离越多,可能就走错路了。
- 第③步:按照方向与步伐去更新参数。
- 第④步:重复第1步~第3步。
首先要明确目标函数,可以看出多个参数都会对结果产生影响,那么要做的就是在各个参数上去寻找其对应的最合适的方向,接下来就是去走那么一小步,为什么是一小步呢?因为当前求得的方向只是瞬时最合适的方向,并不意味着这个方向一直都是正确的,这就要求不断进行尝试,每走一小步都要寻找接下来最合适的方向。
5.2.3梯度下降策略对比
原理还是比较容易理解的,接下来就要看实际应用了,这里假设目标函数仍然是J(Q)=。
在梯度下降算法中有3种常见的策略:批量梯度下降、随机梯度下降和小批量梯度下降,这3种策略的基本思想都是一致的,只是在计算过程中选择样本的数量有所不同,下面分别进行讨论。
- (1)批量梯度下降。此时需要考虑所有样本数据,每一次迭代优化计算在公式中都需要把所有的样本计算一遍,该方法容易得到最优解,因为每一次迭代的时候都会选择整体最优的方向。方法虽好,但也存在问题,如果样本数量非常大,就会导致迭代速度非常慢,下面是批量梯度下降的计算公式:
细心的读者应该会发现,在更新参数的时候取了一个负号,这是因为现在要求解的是一个下山问题,即沿着梯度的反方向去前进。其中1/m表示对所选择的样本求其平均损失,i表示选择的样本数据,j表示特征。例如表示工资所对应的参数,在更新时数据也需选择工资这一列,这是一一对应的关系。在更新时还涉及系数a,其含义就是更新幅度的大小,也就是之前讨论的步长,下节还会详细讨论其作用。
- (2)随机梯度下降。考虑批量梯度下降速度的问题,如果每次仅使用一个样本,迭代速度就会大大提升。那么新的问题又来了,速度虽快,却不一定每次都朝着收敛的方向,因为只考虑一个样本有点太绝对了,要是拿到的样本是异常点或者错误点可能还会导致结果更差。下面是随机梯度下降的计算公式,它与批量梯度下降的计算公式的区别仅在于选择样本数量:
- (3)小批量梯度下降。综合考虑批量和随机梯度下降的优缺点,是不是感觉它们都太绝对了,要么全部,要么一个,如果在总体样本数据中选出一批不是更好吗?可以是10个、100个、1000个,但是程序员应该更喜欢16、32、64、128这些数字,所以通常见到的小批量梯度下降都是这类值,其实并没有特殊的含义。下面我们来看一下选择10个样本数据进行更新的情况:
本节对比了不同梯度下降的策略,实际中最常使用的是小批量梯度下降,通常会把选择的样本个数叫作batch,也就是32、64、128这些数,那么数值的大小对结果有什么影响呢?可以说,在时间和硬件配置允许的条件下,尽可能选择更大的batch吧,这会使得迭代优化结果更好一些。
5.2.4学习率对结果的影响
选择合适的更新方向,这只是一方面,下面还需要走走看,可以认为步长就是学习率(更新参数值的大小),通常都会选择较小的学习率,以及较多的迭代次数,正常的学习曲线走势如图5-6所示。
图5-6 正常迭代优化时曲线形状
由图5-6可见,随着迭代的进行,目标函数会逐渐降低,直到达到饱和收敛状态,这里只需观察迭代过程中曲线的形状变化,具体数值还是需要结合实际数据。
如果选择较大的学习率,会对结果产生什么影响呢?此时学习过程可能会变得不平稳,因为这一步可能跨越太大了,偏离了正确的方向,如图5-7所示。
图5-7 较大学习率对结果的影响
在迭代过程中出现不平稳的现象,目标函数始终没能达到收敛状态,甚至学习效果越来越差,这很可能是学习率过大或者选择样本数据过小以及数据预处理问题所导致的。
学习率通常设置得较小,但是学习率太小又会使得迭代速度很慢,那么,如何寻找一个适中的值呢(见图5-8)?
图5-8 选择合适的学习率
如图5-8所示,较大的学习率并不会使得目标函数降低,较小的学习率看起来还不错,可以选择较多的迭代次数来保证达到收敛状态,所以,在实际中宁肯花费更多时间,也不要做无用功。
学习率的选择是机器学习任务中非常重要的一部分,调参过程同样也是反复进行实验,以选择最合适的各项参数,通用的做法就是从较小的学习率开始尝试,如果遇到不平稳现象,那就调小学习率。
5.3逻辑回归算法
接下来再来讨论一下逻辑回归算法,可能会认为逻辑回归算法是线性回归算法的升级,还是属于回归任务吧?其实并不是这样的,逻辑回归本质上是一个经典的二分类问题,要做的任务性质发生了变化,也就是一个是否或者说0/1问题,有了线性回归的基础,只需稍作改变,就能完成分类任务。
5.3.1原理推导
先来回顾一下线性回归算法得到的结果:输入特征数据,输出一个具体的值,可以把输出值当作一个得分值。此时如果想做一个分类任务,要判断一个输入数据是正例还是负例,就可以比较各自的得分值,如果正例的得分值高,那么就说明这个输入数据属于正例类别。
例如,在图5-9中分别计算当前输入属于猫和狗类别的得分值,通过其大小确定最终的分类结果。但是在分类任务中用数值来表示结果还是不太恰当,如果能把得分值转换成概率值,就变得容易理解。假设正例的概率值是0.02,那么负例就是1–0.02=0.98(见图5-10)。
▲图5-9 预测类别得分值
▲图5-10 预测类别概率值
那么如何得到这个概率值呢?先来介绍下Sigmoid函数,定义如下:
在Sigmoid函数中,自变量z可以取任意实数,其结果值域为[0,1],相当于输入一个任意大小的得分值,得到的结果都在[0,1]之间,恰好可以把它当作分类结果的概率值。
判断最终分类结果时,可以选择以0.5为阈值来进行正负例类别划分,例如输入数据所对应最终的结果为0.7,因0.7大于0.5,就归为正例(见图5-11)。后续在案例实战中还会详细进行对比分析。
图5-11 Sigmoid函数
下面梳理一下计算流程,首先得到得分值,然后通过Sigmoid函数转换成概率值,公式如下:
这个公式与线性回归方程有点相似,仅仅多了Sigmoid函数这一项。X依旧是特征数据,θ依旧是每个特征所对应的参数。下面对正例和负例情况分别进行分析。
由于是二分类任务,当正例概率为hθ(x)时,负例概率必为1−hθ(x)。对于标签的选择,当y=1时为正例,y=0时为负例。为什么选择0和1呢?其实只是一个代表,为了好化简。在推导过程中,如果分别考虑正负例情况,计算起来十分麻烦,也可以将它们合并起来:
- 当y=0时,p(y=0|x;Q)=(hQ(x))y(1-hQ(x))1-y=1-hQ(x)
- 当y=1时,p(y|x;Q)=(hQ(x))y(1-hQ(x))1-y=hQ(x)
式(5.15)将两个式子合二为一,用一个通项来表示,目的是为了更方后续的求解推导。
5.3.2逻辑回归求解
逻辑回归该如何进行求解呢?之前在推导线性回归的时候得出了目标函数,然后用梯度下降方法进行优化求解,这里貌似只多一项Sigmoid函数,求解的方式还是一样的。首先得到似然函数:
对上式两边取对数,进行化简,结果如下:
这里有一点区别,之前在最小二乘法中求的是极小值,自然用梯度下降,但是现在要求的目标却是极大值(极大似然估计),通常在机器学习优化中需要把上升问题转换成下降问题,只需取目标函数的相反数即可:
此时,只需求目标函数的极小值,按照梯度下降的方法,照样去求偏导:
上式直接给出了求偏导的结果,计算量其实并不大,但有几个角标容易弄混,这里再来强调一下,下标i表示样本,也就是迭代过程中,选择的样本编号;下标j表示特征编号,也是参数编号,因为参数θ和数据特征是一一对应的关系。观察可以发现,对θj求偏导,最后得到的结果也是乘以xj,这表示要对哪个参数进行更新,需要用其对应的特征数据,而与其他特征无关。
得到上面这个偏导数后,就可以对参数进行更新,公式如下:
这样就得到了在逻辑回归中每一个参数该如何进行更新,求解方法依旧是迭代优化的思想。找到最合适的参数θ,任务也就完成了。最后来总结一下逻辑回归的优点。
- 简单实用,在机器学习中并不是一味地选择复杂的算法,简单高效才是王道。
- 结果比较直观,参数值的意义可以理解,便于分析。
- 简单的模型,泛化能力更强,更通用。
基于这些优点,民间有这样的传说:遇到分类问题都是先考虑逻辑回归算法,能解决问题根本不需要复杂的算法。这足以看出其在机器学习中的地位,往往简单的方法也能得到不错的结果,还能大大降低其过拟合风险,何乐而不为呢?
本章小结:
本章讲解了机器学习中两大核心算法:线性回归与逻辑回归,分别应用于回归与分类任务中。在求解过程中,机器学习的核心思想就是优化求解,不断寻找最合适的参数,梯度下降算法也由此而生。在实际训练模型时,还需考虑各种参数对结果的影响,在后续实战案例中,这些都需要通过实验来进行调节。在原理推导过程中,涉及很多细小知识点,这些并不是某一个算法所特有的,在后续的算法学习过程中还会看到它们的影子,慢慢大家就会发现机器学习中的各种套路了。
第5章完。
该书资源下载,请至异步社区:https://www.epubit.com