这里是斯坦福大学机器学习网络课程的学习笔记。课程地址是:https://class.coursera.org/ml-2012-002/lecture/index
如上一节介绍,线性回归是有监督学习的机器学习类型,是要预测出连续值,而非离散值。
解决线性回归问题,一般需要一个成本函数,目标就是使得成本函数最低。
线性回归问题的成本函数,形如J(a,b)=1/2m * sum[(a+bx)-y]^2,
其中m是训练样本个数,a+bx是预测的线性函数,(x,y)是训练样本特征值和结果值。
问题1: 为什么成本函数用预测距离的2阶幂函数,而不是绝对值、1阶幂函数、4阶幂函数等?
答:不用奇数阶的原因是,他不能区分正负向的距离,正向距离和负向距离之和可能为0,而实际上,正向距离和负向距离是等价的。
不用绝对值的原因是,他的导数函数不连续,一些函数处理会比较麻烦。
不用4阶或更高阶的原因是考虑到了计算复杂度,低阶复杂度低。
我们通过迭代解法可以得到成本函数的局部最小点,又因为成本函数是凸函数(口向上的抛物线形状,定义是二阶导大于等于0),所以只有一个局部最小点,所以局部最小点即为全局最小点。
问题2:对于跟中心点对称的样本集,是不是有多个最优成本函数,即有多个全局最小点?这跟回归问题只有一个全局最优矛盾么?如(0,2),(0,-2), (2,2), (2,-2), 4个样本而言,这四个点到直线x=1 的成本函数值,跟到直线y=0的成本函数值是一样的,都为2,那么x=1和y=0都是可以达到最低成本函数的预测函数,是不是矛盾了?
答:不矛盾,因为这里x=1并不是函数,我们的函数形式是y=a+bx,其中a,b是任意值。 通过计算使成本函数最低的方法其实也能求解出只有一个解, y=0.