机器学习模型的选择

　　首先明白一个事实，那就是如果我们在某个训练集上训练拟合得到一个模型，那么显然，这个模型在这个训练集上的训练错误很有可能会比实际上的泛化错误（generalization error）会低（模型overfitting）。

　　　　假如我们把数据集分成训练集和测试集。然后，在训练集上训练得到几个模型，我们想从中选择一个我们认为最好的模型。我们该如何做选择呢？

　　　　但是，我们知道，训练错误最小，很可能是这个模型过度拟合；因此，这个模型的实际泛化错误（generalization error）很大。换句话说，如果把这些模型放在测试集上进行测试，训练错误最小的那个模型很可能测试错误很大。所以，这种方法不可行。

　　　　嗯，是不错，但是如果我们想知道这个模型的泛化错误（generalization error）是多少该怎么办？直接使用测试错误吗？显然这样做不好，前面提到，这个错误值往往很可能比实际的泛化错误小。

　　　　那该怎么办呢？

　　　　首先，把数据集分成三部分：训练集、验证集（交叉验证集 cross validation set）、测试集；

　　　　其次，在训练集上训练得到几个模型；

　　　　接着，把这些模型放在验证集上进行验证，选择验证错误最小的那个模型；

　　　　最后，把这个模型放在测试集上进行测试，计算得到它的测试错误，这个测试错误就可以当成它的泛化错误（generalization error）。

相关阅读:
打sql server pack4后打开网站报错的解决办法
北京大学的三角形文章
一次SQL Server 2000修复实践的说明
今天重看了几集《将爱情进行到底》
MakeFile的写法
[经验杂谈]与大虾对话：领悟设计模式zz
论函数调用约定(zz)
用标准模板库STL实现文件比较(zz)
C++中的虚函数(virtual function)
为学院科研办做的个小应用管理程序

原文地址：https://www.cnblogs.com/simplelovecs/p/5133562.html