最小二乘法

最小二乘法
最小二乘法用于在回归分析中，计算overdetemined system的近似解。overdetemined system是指等式数目多余未知量的问题。其思想是：最小化各个等式的误差的平方和。

最常见应用于数据拟合（如下），此时优化目标是最小化平方残差，残差即为观测值和模型计算的拟合值的差。

按照残差项是够是线性的，最小二乘法分为两类：线性最小二乘、非线性最小二乘。

线性最小二乘常见于回归分析，它有封闭的解（解具有等式形式，如 $a*x^{2}+b*x+c=0$ ）;非线性最小二乘通常是迭代寻优，每一次迭代中,将问题近似为线性。

问题描述

最小二乘问题的数学表示：

$left{ egin{array}{ll} S=sum_{i=1}^{n}r_i^{2}\ r_{i}=y_{i}-f(x_{i},eta)) end{array} ight.$

其中 $f(x_{i},eta)$ 为模型, 如直线拟合中: $f(x,eta)=eta_{0}+eta_{1}*x$

$eta$ 为模型参数向量,观察值为 $(x_{i},y_{i})\,i=1...n$

算法求解

$min(S)$ 为问题的目标函数，最小化平方和，即寻找梯度为0的解，设有m个参数，则有：

$frac{partial{S}}{partial{eta_{j}}}= 2sum_{i=1}^{n}{r_{i}*frac{partial{r_{i}}}{partial{eta_{j}}}}=0$ ，其中 $j=1...m$ .

带入 $r_{i}=y_{i}-f(x_{i},eta)$ , 得到:

$-2sum_{i=1}^{n}{r_{i}* frac{ partial{f(x_{i},eta)} }{ partial{eta_{j}} } }=0$ , $j=1...m$ （1）

线性最小二乘法

模型是参数的线性组合, $f(x,eta)=sum_{j=1}^{m}{eta_{j}*phi_{j}(x)}$ , 其中 $phi_j$ 是x的函数（它是一个确定值）。所以：

$X_{ij}=frac{partial{f(x_{i},eta)}}{partial{eta_{j}}}=phi_{j}(x)$

将 $r_{i}=y_{i}-sum_{j=1}^{m}{eta_{j}*X_{ij}}$ 带入(1)式子，得到矩阵形式：

$X^{T}Xhat{eta}=X^{T}y$ 其中 $X^{T}X$ 是正定矩阵,所有:

$hat{eta}=(X^{T}X)^{-1}X^{T}y$

非线性最小二乘法

并不存在上述类似的封闭解,而是采用数字算法来寻优 $hat{eta}$ , 为参数设置初值,然后进行迭代调优,直至收敛。

$eta_{j}^{k+1}=eta_{j}^{k}+Deltaeta_{j}$ , k为迭代的次数

$Deltaeta_{j}$ 称为 shift vector，位移向量。

每一次迭代，模型可以用关于 $eta^{k}$ 的Taylor一阶展开进行线性近似：

$f(x_{i},hat{eta})=f(x_{i},eta^{k})+sum_{j=0}^{m}{ frac{partial{f(x_{i},eta)}} {partial{eta_{j}}}*(eta_{j}-eta_{j}^{k}) }\ =f(x_{i},eta^{k})+sum_{j=0}^{m}{J_{ij}*Deltaeta_{j}}$

J是确定数值的Jacobian矩阵（独立于y和参数β）。

由此得：

$r_{i}=y_{i}-f(x_{i},eta^{k})-sum_{j=1}^{m}{J_{ij}Deltaeta{j}}= Delta{y_{i}}-sum_{j=1}^{m}{J_{ij}Deltaeta_{j}}$

最小化上式,梯度为0,得：

$-2sum_{i=1}^{n}{r_{i}*J_{ij}}=0$ (2)

将 $r_{i}$ 带入(2)式，得到结果的矩阵形式：

$J^{T}JDelta{eta}=J^{T}Delta{y}$

所以: $Delta{eta}=(J^{T}J)^{-1}J^{T}Delta{y}$

这就是Gauss–Newton algorithm的等式。
```
The Gauss–Newton algorithm is used to solve non-linear least squares problems. It is a modification of Newton's method for finding a minimum of a function. Unlike Newton's method, the Gauss–Newton algorithm can only be used to minimize a sum of squared function values, but it has the advantage that second derivatives, which can be challenging to compute, are not required.
```
Gauss-Newton算法不同于Newton方法，它只用于最小化平方和问题，但是它具有类似二阶导的优势。

参考:

https://en.wikipedia.org/wiki/Least_squares

https://en.wikipedia.org/wiki/Gauss%E2%80%93Newton_algorithm

进一步扩展

最速下降法

在基本迭代公式中 $X_{k+1}=X_{k}+t_{k}P_{k}$ 中,每次迭代搜索方向 $P_{k}$ 取为目标函数f(x)的负梯度方向。

$P_{k}=- abla{f(x_{k})}$

而 $t_{k}$ 为最优步长，由此确定的算法称为最速下降法。

牛顿法

设最优问题为： $minf(X)$ ,其中f二阶可到，Hesse矩阵 $abla^{2}{f(X)}$ 正定。

k次迭代得到 $x_{k}$ , 将f(x)在 $x_{k}$ 处展开为二阶泰勒公式，得：

$f(X)≈Q(X)=f(X_{k})+ abla{f(X_{k})^{T}}(X-X_{k})+frac{1}{2}(X-X_{k})^{T} abla^{2}f(X_{k})(X-X_{k})$

显然Q(X)是正定二次函数，所以Q(X)是凸函数，且存在唯一局部极小值，得

$X-X_{k}=frac{ abla{f(X_{k})}} { abla^{2}f(X_{k})}$ $X-X_{k}=-frac{ abla{f(X_{k})}}{ abla^{2}f(X_{k})}$

所以: $X=X_{k}- }[ abla^{2}f(X_{k})]^{-1}{ abla{f(X_{k})}$

相应有:

$P_{k}= -[ abla^{2}f(X_{k})]^{-1}{ abla{f(X_{k})}$

$X_{k+1}=X_{k}+t_{k}P_{k}$

对于二次函数, 一次迭代即可得到最优值。

Levenberg-Marquart算法

LM算法实现了在最速下降法和Inverse-Hessian算法之间进行平稳的变化。是求解最小二乘法最常用的方法。

将 $J^{T}JDelta{eta}=J^{T}Delta{y}$

转化为： $(1+lambda)*J^{T}JDeltaeta=J^{T}Delta{y}$

在L-M算法中，每一次迭代都是寻找一个合适的 $lambda$ 值。算法开始时，通常取 $lambda=10^{-3}$ ，若结算后的解 $eta$ 导致误差减少，则接受的当前值，并在下一次迭代中以 $lambda/10$ 代替 $lambda$ 。若解导致误差的增大，则以 $10lambda$ 代替 $lambda$ 并重新求解增量方程。这个过程一直到求出一个使误差下降的 $Delta{eta}$ 为止，构成L-M算法的一次迭代。

参考:http://blog.csdn.net/wsj998689aa/article/details/40826775
相关阅读:
Vue之仿百度搜索框
 Vue之交互
 Vue之键盘事件
 Vue之事件冒泡
 Vue之阻止默认行为
 sql注入常用注释符总结
 什么是Git
Github部署博客
 php笔记
 JavaScript（更新中）
原文地址：https://www.cnblogs.com/houkai/p/6369870.html

问题描述

算法求解

线性最小二乘法

非线性最小二乘法

进一步扩展

最速下降法

牛顿法

Levenberg-Marquart算法