线性模型

线性模型

周志华《机器学习》学习笔记

线性模型

通过属性的线性组合来进行函数预测，

$f (x) = w_{1} x_{1} + w_{2} x_{2} + . . . + w_{d} x_{d} + b$
使用向量形式 $f (x) = w^{T} x + b$
其中 $x = (x_{1}, x_{2}, . ., x_{d})$ 为d个属性， $w_{d}$ , $b$ 是通过学习获得的取值， $w_{d}$ 直接反应各个属性的重要性。

线性模型>>非线性模型
在线性模型的基础上引入层级结构或者高维映射可得到非线性模型。

线性回归

给定一个带有标注的数据集，学习一个线性模型来预测新的数据输出标注。

一维的情况
线性回归试图学得 $f (x_{i}) = w x_{i} + b$ 使得 $f (x_{i}) ≃ y_{i}$
通过衡量 $f (x)$ 与 $y$ 的均方误差得到 $w$ , $b$ ，均方误差是回归任务中最常用的性能度量。
均方误差也叫欧氏距离。
让均方误差最小化便得到 $w$ , $b$ ，
$(w^{*}, b^{*}) = a r g m i n \sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2} = a r g m i n \sum_{i = 1}^{m} (y_{i} - w x_{i} - b)^{2}$
最小二乘法(Least square method)求解最小均方误差。

令 $E (w, b) = \sum_{i = 1}^{m} (y_{i} - w x_{i} - b)^{2}$ ,分别对其 $w$ , $b$ 求偏导数，再令两个偏导数为0即个得到最优的闭式解。

多维情况
$f (x_{i}) = w^{T} x_{i} + b$ 使得 $f (x_{i}) ≃ y_{i}$
$w$ , $b$ 的表现写成 $\hat{w} = (w; b)$
数据集用矩阵表示
${\begin{matrix} x_{11} & x_{12} & . . . & x_{1 d} & 1 \\ x_{21} & x_{22} & . . . & x_{2 d} & 1 \\ . . . & . . . & . . . & . . . & . . . \\ x_{m 1} & x_{m 2} & . . . & x_{m d} & 1 \end{matrix}} = {\begin{matrix} x_{1}^{T} & 1 \\ x_{2}^{T} & 1 \\ . . . & . . . \\ x_{m}^{T} & 1 \end{matrix}}$
标记 $y = (y_{1}; y_{2}; . . .; y_{d})$
让均方误差最小化 $(w^{*}, b^{*}) = a r g m i n (y - X \hat{w})^{T} (y - X \hat{w})$
令 $E = (y - X \hat{w})^{T} (y - X \hat{w})$ , 对 $\hat{w}$ 求导并使其结果为0即可就得解。
当数据集个数小于属性个数时，将得到多个解能让均方误差最小，引入正则化项选择一个解输出。

对数线性回归

让模型的预测值逼近 $l n y$ 而不是 $y$ ，相当于让 $e^{w^{T} x + b}$ 逼近 $y$ 。
广义线性模型：
$y = g^{- 1} (w^{T} x + b)$
$g (.)$ ,单调可微函数，称为联系函数。
当 $g (.)$ 取 $l n ()$ 时，即为对数线性回归。

对数几率回归

线性回归在分类问题中的应用。
找一个单调可微线性函数将标记 $y$ 与线性模型的预测值关联起来。
简单的二分类问题用单位阶跃函数，当预测值大于0，为正例，小于0为反例，等于0随意。
实际上阶跃函数不连续，常用对数几率函数(Logistic function)代替，将实值z转为接近0或1的y值：

$y = \frac{1}{1 + e^{- z}}$

什么是几率？
正例的可能性/非正例的可能性
什么是对数几率？
ln（正例的可能性/非正例的可能性）

$z = (w^{T} x + b)$ 带入上式，在变形得到 $l n (\frac{y}{1 - y}) = w^{T} x + b$
这就是用线性回归模型的预测结果去逼近真实标记的对数几率。

对数几率函数是一种“Sigmoid”函数，它将z转为一个接近0或者1的y值。
相关阅读:
线程同步：互斥锁，条件变量，信号量
 设计推荐系统
 寻找第K大的数
 算法思想
 LIS 最长递增子序列
 LeetCode Median of Two Sorted Arrays
oracle查询所有初始化参数（含隐含参数）
glibc 2.x release note
spring boot log4j2与三方依赖库log4j冲突无法初始化问题解决方法
 spring boot @Scheduled未生效原因以及相关坑、及相对其他定时任务架构的优势
原文地址：https://www.cnblogs.com/siucaan/p/9623185.html

线性模型

线性回归

对数线性回归

对数几率回归