• 线性模型


    周志华《机器学习》学习笔记

    线性模型

    通过属性的线性组合来进行函数预测,

    f(x)=w1x1+w2x2+...+wdxd+b

    使用向量形式
    f(x)=wTx+b

    其中x=(x1,x2,..,xd)为d个属性,wd,b是通过学习获得的取值,wd直接反应各个属性的重要性。

    线性模型>>非线性模型
    在线性模型的基础上引入层级结构或者高维映射可得到非线性模型。

    线性回归

    给定一个带有标注的数据集,学习一个线性模型来预测新的数据输出标注。

    一维的情况
    线性回归试图学得f(xi)=wxi+b使得f(xi)yi
    通过衡量f(x)y的均方误差得到w,b,均方误差是回归任务中最常用的性能度量。
    均方误差也叫欧氏距离。
    让均方误差最小化便得到w,b

    (w,b)=argmini=1m(f(xi)yi)2=argmini=1m(yiwxib)2

    最小二乘法(Least square method)求解最小均方误差。

    E(w,b)=i=1m(yiwxib)2,分别对其w,b求偏导数,再令两个偏导数为0即个得到最优的闭式解。

    多维情况
    f(xi)=wTxi+b使得f(xi)yi
    w,b的表现写成w^=(w;b)
    数据集用矩阵表示

    {x11x12...x1d1x21x22...x2d1...............xm1xm2...xmd1}={x1T1x2T1......xmT1}

    标记 y=(y1;y2;...;yd)
    让均方误差最小化
    (w,b)=argmin(yXw^)T(yXw^)

    E=(yXw^)T(yXw^), 对w^求导并使其结果为0即可就得解。
    当数据集个数小于属性个数时,将得到多个解能让均方误差最小,引入正则化项选择一个解输出。

    对数线性回归

    让模型的预测值逼近lny而不是y,相当于让ewTx+b逼近y
    广义线性模型:

    y=g1(wTx+b)

    g(.),单调可微函数,称为联系函数。
    g(.)ln()时,即为对数线性回归。

    对数几率回归

    线性回归在分类问题中的应用。
    找一个单调可微线性函数将标记y与线性模型的预测值关联起来。
    简单的二分类问题用单位阶跃函数,当预测值大于0,为正例,小于0为反例,等于0随意。
    实际上阶跃函数不连续,常用对数几率函数(Logistic function)代替,将实值z转为接近0或1的y值:

    y=11+ez

    什么是几率?
    正例的可能性/非正例的可能性
    什么是对数几率?
    ln(正例的可能性/非正例的可能性)

    z=(wTx+b)带入上式,在变形得到ln(y1y)=wTx+b
    这就是用线性回归模型的预测结果去逼近真实标记的对数几率。

    对数几率函数是一种“Sigmoid”函数,它将z转为一个接近0或者1的y值。

  • 相关阅读:
    线程同步:互斥锁,条件变量,信号量
    设计推荐系统
    寻找第K大的数
    算法思想
    LIS 最长递增子序列
    LeetCode Median of Two Sorted Arrays
    oracle查询所有初始化参数(含隐含参数)
    glibc 2.x release note
    spring boot log4j2与三方依赖库log4j冲突无法初始化问题解决方法
    spring boot @Scheduled未生效原因以及相关坑、及相对其他定时任务架构的优势
  • 原文地址:https://www.cnblogs.com/siucaan/p/9623185.html
Copyright © 2020-2023  润新知