过拟合:当某个模型过度的学习训练数据中的细节和噪音,以至于模型在新的数据上表现很差,我们称过拟合发生了,通俗点就是:模型在训练集中测试的准确度远远高于在测试集中的准确度。
过拟合问题通常发生在变量特征过多的时候。这种情况下训练出的方程总是能很好的拟合训练数据,也就是说,我们的代价函数可能非常接近于0或者就为0,使其拟合只局限于训练样本中,无法很好预测其他新的样本。
欠拟合:在训练数据和未知数据上表现都很差
解决过拟合问题的方法主要有:
1. 减少特征数量,通过人工或者算法选择哪些特征有用保留,哪些特征没用删除,但会丢失信息。
2. 正则化,保留特征,但减少特征对应参数的大小,让每个特征都对预测产生一点影响。
解决欠拟合问题的方法主要有:
1.减少正则化:正则化可以避免过拟合的发生,因此在出现过拟合的情况时,可以通过减少正则化的损失函数来防止过拟合的发生。
2.添加数据量和特征维度:由于模型可用于学习的数据规模可能不足够大,导致模型训练的不够充分,模型复杂度不够。还有如果统计的数据信息中,各个维度数量收集的不够或者维度信息中大部分不具有区分样本的特质。面对这种问题主要方法是收集更多的特质维度,或者增加采样信息等方式来扩充数据。
3.增加算法模型的复杂度:例如很多训练样本不是线性可分的,如果单用线性方法来拟合可能无法达到一个理想的拟合方法,这时候引入非线性方法,如核函数等方法或者更复杂的深度学习等方法来增加模型的复杂度