过拟合问题
什么是欠拟合?
欠拟合就是拟合度不好,存在高度偏差
什么是过拟合?
过拟合就是在训练数据上能够高度拟合,在应用数据集上却不能很好的拟合。
出现这种现象的主要原因是训练数据种特征变量太多存在噪音或者训练数据太少。
怎么解决过拟合问题?
1、减少特征变量的数量
2、正则化:保留所有的特征变量,减少特征变量的量级
正则化损失函数:正则化的原理是加如正则项是权重值尽量小
在房价预测的例子中,如果:特征变量有100个,那相应的权重也有100个,正则项就需要100个
正则前的损失函数:
正则化后的损失函数:
线性回归正则化
梯度下降正则化
梯度下降:
正则化梯度下降:
正常方程正则化
正常方程:
正则化:
Logistic回归正则化
损失函数:
正则化损失函数: