关于拉格朗日乘子法和KKT条件

解密SVM系列（一）：关于拉格朗日乘子法和KKT条件

标签： svm 算法支持向量机

2015-08-17 18:53 1214人阅读评论(0) 收藏举报

分类：

模式识别&机器学习（42）

原文链接： http://blog.csdn.net/on2way/article/details/47729419

写在之前

支持向量机（SVM），一个神秘而众知的名字，在其出来就受到了莫大的追捧，号称最优秀的分类算法之一，以其简单的理论构造了复杂的算法，又以其简单的用法实现了复杂的问题，不得不说确实完美。
本系列旨在以基础化的过程，实例化的形式一探SVM的究竟。曾经也只用过集成化的SVM软件包，效果确实好。因为众人皆说原理复杂就对其原理却没怎么研究，最近经过一段时间的研究感觉其原理还是可以理解，这里希望以一个从懵懂到略微熟知的角度记录一下学习的过程。
其实网络上讲SVM算法的多不胜数，博客中也有许多大师级博主的文章，写的也很简单明了，可是在看过之和总是感觉像差点什么，当然对于那些基础好的可能一看就懂了，然而对于像我们这些薄基础的一遍下来也能马马虎虎懂，过一两天后又忘了公式怎么来的了。比如说在研究SVM之前，你是否听说过拉格朗日乘子法？你是否知道什么是对偶问题？你是否了解它们是怎么解决问题的？Ok这些不知道的话，更别说什么是KKT条件了，哈哈，有没有说到你的心声，不用怕，学学就会了。话说像拉格朗日乘子法，在大学里面学数学的话，不应该没学过，然你学会了吗？你知道是干什么的吗？如果那个时候就会了，那你潜质相当高了。作为一个刚过来的人，将以简单实例化形式记录自己的学习过程，力图帮助新手级学习者少走弯路。

（一）关于拉格朗日乘子法

首先来了解拉格朗日乘子法，那么为什么需要拉格朗日乘子法？记住，有拉格朗日乘子法的地方，必然是一个组合优化问题。那么带约束的优化问题很好说，就比如说下面这个：

m i n

这是一个带等式约束的优化问题，有目标值，有约束条件。那么想想假设没有约束条件这个问题是怎么求解的呢？是不是直接f对各个x求导等于0,，解x就可以了，可以看到没有约束的话，求导为0，那么各个x均为0吧，这样f=0了，最小。但是x都为0不满足约束条件呀，那么问题就来了。这里在说一点的是，为什么上面说求导为0就可以呢？理论上多数问题是可以的，但是有的问题不可以。如果求导为0一定可以的话，那么f一定是个凸优化问题，什么是凸的呢？像下面这个左图：
这里写图片描述

凸的就是开口朝一个方向（向上或向下）。更准确的数学关系就是：

f ( x 1 ) + f ( x 2 ) 2 > f ( x 1 + x 2 2 ) 或 者

注意的是这个条件是对函数的任意x取值。如果满足第一个就是开口向上的凸，第二个是开口向下的凸。可以看到对于凸问题，你去求导的话，是不是只有一个极点，那么他就是最优点，很合理。类似的看看上图右边这个图，很明显这个条件对任意的x取值不满足，有时满足第一个关系，有时满足第二个关系，对应上面的两处取法就是，所以这种问题就不行，再看看你去对它求导，会得到好几个极点。然而从图上可以看到，只有其中一个极点是最优解，其他的是局部最优解，那么当真实问题的时候你选择那个？说了半天要说啥呢，就是拉格朗日法是一定适合于凸问题的，不一定适合于其他问题，还好我们最终的问题是凸问题。

回头再来看看有约束的问题，既然有了约束不能直接求导，那么如果把约束去掉不就可以了吗？怎么去掉呢？这才需要拉格朗日方法。既然是等式约束，那么我们把这个约束乘一个系数加到目标函数中去，这样就相当于既考虑了原目标函数，也考虑了约束条件，比如上面那个函数，加进去就变为：

m i n

这里可以看到与

\partial f \partial x 1 = 4 x 1 + 2 α 1 = 0 \Rightarrow x 1 = - 0.5 α 1

把它在带到约束条件中去，可以看到，2个变量两个等式，可以求解，最终可以得到

（二）关于KKT条件

继续讨论关于带等式以及不等式的约束条件的凸函数优化。任何原始问题约束条件无非最多3种，等式约束，大于号约束，小于号约束，而这三种最终通过将约束方程化简化为两类：约束方程等于0和约束方程小于0。再举个简单的方程为例，假设原始约束条件为下列所示：

m i n

s . t .

为什么都变成等号与小于号，方便后面的，反正式子的关系没有发生任何变化就行了。

现在将约束拿到目标函数中去就变成：

L (x, α) = f (x) + α 1 g 1 (x) + α 2 g 2 (x)

L (x, α, β) = f (x) + \sum α i g i (x) + \sum β i h i (x)

(1) L对各个x求导为零；
(2) h(x)=0;
(3)

这三个式子前两个好理解，重点是第三个式子不好理解，因为我们知道在约束条件变完后，所有的g(x)<=0，且

假设有一个目标函数，以及它的约束条件，形象的画出来就如下：
这里写图片描述
假设就这么几个吧，最终约束是把自变量约束在一定范围，而函数是在这个范围内寻找最优解。函数开始也不知道该取哪一个值是吧，那就随便取一个，假设某一次取得自变量集合为x1*，发现一看，不满足约束，然后再换呀换，换到了x2*,发现可以了，但是这个时候函数值不是最优的，并且x2*使得g1(x)与g2(x)等于0了，而g3(x)还是小于0。这个时候，我们发现在x2的基础上再寻找一组更优解要靠谁呢？当然是要靠约束条件g1(x)与g2(x)，因为他们等于0了，很极限呀，一不小心，走错了就不满足它们两了，这个时候我们会选择g1(x)与g2(x)的梯度方向往下走，这样才能最大程度的拜托g1(x)与g2(x)=0的命运，使得他们满足小于0的约束条件对不对。至于这个时候需不需要管g2(x)呢？正常来说管不管都可以，如果管了，也取g3在x2*处的梯度的话，因为g3已经满足了小于0的条件，这个时候在取在x2*处的梯度，你能保证它是往好的变了还是往差的变了？答案是都有可能。运气好，往好的变了，可以更快得到结果，运气不好，往差的变了，反而适得其反。那么如果不管呢？因为g1(x)与g2(x)已经在边缘了，所以取它的梯度是一定会让目标函数变好的。综合来看，这个时候我们就不选g3。那么再往下走，假设到了自变量优化到了x3*，这个时候发现g2(x)与g3(x)等于0，也就是走到边了，而g1(x)小于0，可变化的空间绰绰有余，那么这个时候举要取g2(x)与g3(x)的梯度方向作为变化的方向，而不用管g1(x)。那么一直这样走呀走，最终找到最优解。可以看到的是，上述如果g1(x)、g2(x)=0的话，我们是需要优化它的，又因为他们本身的条件是小于0的，所以最终的公式推导上表明，是要乘以一个正系数

比如上面例子的目标值与约束：

m i n

L (x, α) = x 2 1 - 2 x 1 + 1 + x 2 2 + 4 x 2 + 4 +

\partial L \partial x 1 = 2 x 1 - 2 - α 1 + 10 α 2 = 0 \Rightarrow x 1 = 0.5 ( α 1 - 10 α 2 + 2

α 1 * g 1 (x) = α 1 * (10 - x 1 - 10 x 2) = 0

说回来，这里有四种情况，正好两个

（2）

（3）其他两种情况再去讨论发现是不行的。

可以看到像这种简单的讨论完以后就可以得到解了。
x1=110/101=1.08;x2=90/101=0.89,那么它得到结果对不对呢？这里因为函数简单，可以在matlab下画出来，同时约束条件也可以画出来，那么原问题以及它的约束面画出来就如下所示：
这里写图片描述
这是截取下来的符合约束要求的目标面

可以看到最优解确实就是上面我们求的那个解。既然简单的问题可以这样解，那么复杂一点的只需要简单化，照样可以解，至此KKT条件解这类约束性问题就是这样，它对后续的SVM求解最优解至关重要。

相关阅读:
Python自学之路-面试题
k8s学习笔记之三：configmap和secret
k8s学习笔记之二：Pod
k8s学习笔记之四：使用kubeadm配置Ingress
k8s学习笔记之一：使用kubeadm安装k8s集群
HTTP content-type
Json对象和Json字符串的区别
.net 5+ 知新：【2】 .Net Framework 、.Net 、 .NET Standard的概念与区别
Log4net和Nlog
通过系统存储过程手动执行SQL Server中的Job

原文地址：https://www.cnblogs.com/sddai/p/5730116.html