1. 线性回归
利用数理统计学中的回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计方法。 表达形式: y = ax + b + e ( e 为误差服从均值为0的正态分布,不是一个定值,也称为残差),当 e 的平方和最小时,可以称之为最佳回归线性方程。
2. 拟合
把平面上一系列的点用一条光滑的曲线连接起来的过程就叫做拟合。高中还是初中学过的,用小车拉纸带,用打点器每隔多少秒在纸带上打点,来计算重力加速度的实验,就是通过得出的时间与速度的关系图,用一条直线拟合这些点,这条直线的斜率就是重力加速度的近似值。
3. 残差分析
从上面的打点计时器的例子来看,理论上推定 v=gt,而在实验中产生的其实是一个不太准确的函数 v=gt+e。 那么问题就转化为 g 究竟取多少才能让 e 最小呢? 这个过程就是残差分析,而最终得到的结果就是要计算出一个 g,使得 e 为误差服从均值为0的正态分布。 这种用来进行线性回归中的系数猜测的方法就是 -- 最小二乘法、梯度下降法
4. 过拟合
在归纳过程中,可能为了迎合所有样本向量点甚至噪声点而使得模型描述过于复杂。
过拟合的危害: (1) 描述复杂 (2) 失去泛化能力。
造成过拟合的原因: (1)训练样本少。 (2) 力求完美
5. 欠拟合
由于操作不当----也可以说建模不当产生的误差 e 分布太散或者太大的情况。通常体现出来的都是在线性回归中的因素考虑不足的情况,常见的原因有以下两种:
(1)参数过少。(2) 拟合不当
6. 曲线拟合转化为线性拟合
非线性回归一般可以分为一元非线性回归和多元非线性回归。一元非线性回归是指两处自变量之间呈现非线性关系。如双曲线、二次曲线等。
我们应该尽量把多元非线性回归经过适当的数学变换,使它们可以用线性化的表达式。