1.基本概念
错误率E=分类错误的样本数a/总样本数m;精度=1-a/m
经验误差/训练误差:在训练集上产生的
泛化误差:在测试集上产生的=====》要把这个泛化误差降到最小化。
2.评估方法
(1)留出法:在样本中取出30%或20%作为测试集;
(2)交叉验证法:
留一法:交叉验证的特例,k=m,k次,每次取一个作为验证集。
(3)自助法:样本D随机采样抽取一个元素----》D*,再放回,重复m次,就得到了包含m个样本的数据集
总结,因为自助法的随机抽样会产生误差,所以前两种方法用的较多。