过拟合概念:是指分类器能够百分之百的正确分类样本数据(训练集中的样本数据),对训练集以外的数据却不能够正确分类。
原因:1:模型(算法)太过复杂,比如神经网络,算法太过精细复杂,规则太过严格,以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别,即在训练样本中拟合的很好,在训练样本外拟合的很差,过拟合最早就是从神经网络中发现出来的。策略树深度过深、回归参数过多,都会造成过拟合。
2:训练集中存在噪音,为了拟合异常点,偏离了正常分布。
3:训练集太小或不具有代表性
训练集与测试集互不相交,前者用来构造分类器,后者用来验证分类器的准确性。如果用整个数据集去构造分类器,并用该数据集去验证分类器性能,则不能保证分类器未产生过拟合。