Error = Bias^2 + Variance+Noise
误差的原因:
1.Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,即算法本身的拟合能力。
2.Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。反应预测的波动情况。
3.噪声。
为了帮助理解,搬运知乎上的图。bias表示偏离中心的程度,variance表示结果的波动程度。在实际的预测当中,我们希望模型的数据不但是low bias,而且还是low variance,但是两者之间的trade-off导致这种情况很难发生。
欠拟合
当模型的复杂程度过低或者训练数据过少时候,得到的预测模型不能反映出数据之间正确的关系,会产生较高的偏差,即high bias。
过拟合
当模型的复杂程度过高或者说过度学习了训练数据中的内在联系,而导致在使用测试集验证的时候误差仍然会很大,但这时候不是由bias引起的,而是由high variance引起的。