Lecture 15: Validation
15.1 Model Selection Problem
略过!
用 Ein 来选择模型不靠谱,要用验证集
15.2 Validation
略过!
15.3 Leave-one-out Cross Validation
现在还有一个问题,Eloocv 是很多模型的Error 的均值。就算 Eloocv 效果很好。我们还是不知道用那个模型? 难道是训练 n 个模型,然后用投票法?居然真的是这样,如果是 loocv 组合 svm 岂不是嗨爆!还是 k 交叉验证更靠谱点
另外, leave-one-out cross validation 也算是 bagging 算法 (类似的还有 RF 中的 oob ),不过 leave-one-out cross validation 变的是训练数据,bagging 中模型参数会变。《西瓜书》关于 bagging 模型模型稳定的定性解释也能用于解释 leave-one-out cross validataion!
图 15-1
图 15-2 中关于 eave-one-out cross validation error 约等于 out-sample error 的证明也是奇特 !
如果样本数特别多,就没有做 leave-one-out cross validation 了
图 15-2
可以很直观的看出 Eloocv 的效果要比 Ein 要好(那么还需不需要更新 VC Dimension ?)
15.4 V-Fold Cross Validation
略过
题外话:
1. 第三小节的内容要参考《西瓜书》和网络资料
2. 想个无关本节的问题, 对于 bagging 而言。假设有个模型 A 在 in-sample 数据上表现的很好,而且在 out-sample 表现的也很好。此时如果用 bagging 算法计算的结果还不如单独用模型 A 计算出的结果。那么为什么还有用 bagging 呢? 仅仅是我们不知道如何将模型 A 挑选出来?
3. 前面写笔记时谈的都是 Ein 和 Eout ,要更新了前面的笔记
4. 如图 15-2 所示,有关特征数量和错误率间的关系还需要查找其它资料学习(本节出现这段内容也算是突兀的很)