• 【Stanford Machine Learning Open Course】2. 线性回归问题介绍


    这里是斯坦福大学机器学习网络课程的学习笔记。课程地址是:https://class.coursera.org/ml-2012-002/lecture/index

     

    如上一节介绍,线性回归是有监督学习的机器学习类型,是要预测出连续值,而非离散值。

    解决线性回归问题,一般需要一个成本函数,目标就是使得成本函数最低。

    线性回归问题的成本函数,形如J(a,b)=1/2m * sum[(a+bx)-y]^2,

    其中m是训练样本个数,a+bx是预测的线性函数,(x,y)是训练样本特征值和结果值。

    问题1: 为什么成本函数用预测距离的2阶幂函数,而不是绝对值、1阶幂函数、4阶幂函数等?

    答:不用奇数阶的原因是,他不能区分正负向的距离,正向距离和负向距离之和可能为0,而实际上,正向距离和负向距离是等价的。

          不用绝对值的原因是,他的导数函数不连续,一些函数处理会比较麻烦。

          不用4阶或更高阶的原因是考虑到了计算复杂度,低阶复杂度低。

    我们通过迭代解法可以得到成本函数的局部最小点,又因为成本函数是凸函数(口向上的抛物线形状,定义是二阶导大于等于0),所以只有一个局部最小点,所以局部最小点即为全局最小点。

    问题2:对于跟中心点对称的样本集,是不是有多个最优成本函数,即有多个全局最小点?这跟回归问题只有一个全局最优矛盾么?如(0,2),(0,-2), (2,2), (2,-2), 4个样本而言,这四个点到直线x=1 的成本函数值,跟到直线y=0的成本函数值是一样的,都为2,那么x=1和y=0都是可以达到最低成本函数的预测函数,是不是矛盾了?

    答:不矛盾,因为这里x=1并不是函数,我们的函数形式是y=a+bx,其中a,b是任意值。 通过计算使成本函数最低的方法其实也能求解出只有一个解, y=0.

    转载请注明出处: http://www.cnblogs.com/liyuxia713/
  • 相关阅读:
    android从资源文件中读取文件流显示
    Android利用Bundle实现Activity间消息的传递
    MyEclipse 9本地安装插件的方法
    XXE漏洞利用详解
    批处理编写
    初见提权
    个人对ip的理解
    业务逻辑漏洞利用
    NTFS安全权限
    Windows系统管理
  • 原文地址:https://www.cnblogs.com/liyuxia713/p/2680930.html
Copyright © 2020-2023  润新知