统计学习方法 第一章 学习心得
以下可能有不当之处,请各位朋友停步指正,先谢过各位。
上一帖子说道,统计学习方法的三要素: 模型、策略、算法.
模型:模型的假设空间
策略:模型的选择准则,即:定义最优模型的方法。
算法:模型学习的算法,也就是求解最优模型的算法。
-------------------------------------------------------------------
通俗的讲,应用统计学习方法有以下几个步骤,
1.首先,要对已有数据进行分析,选择合适的能够对该数据集的规律进行描述的(带未知参数的)方程 或者说 函数,此时是第一步,也是很重要的一步。--->也叫模型的假设空间
2.然后,由于在第一步中的函数(也叫模型的假设空间)还带有未知参数,同时它的预测能力也未可知,因此我们需要一个自动评价其优劣性的方法,即:在什么情况下,我们认为其未知参数的选定是好的,什么情况下是坏的,这样我们就有了一个评判标准,能够想办法使得结果越来越贴近真实。我们称其为策略(模型选择的准则)。
3.最后,有了模型(带参数的函数、假设空间),有了评判标准,当然数据集一直在的,这样我们就可以利用计算机惊人的、快速的、重复的、永不疲倦的计算能力找到模型的最优参数(是否最优,需要根据策略来评定)。
这样,我们求解到了模型就可以对数据进行预测、分类了。
,接着又衍生了另外一个问题,模型预测能力的评定,以及在数据集不够的情况下如何最大效率的利用好有限的数据集?
1.在上一步的模型求解过程当中,我们有损失函数来描述模型的策略,评判模型的好坏,此时如何对已经习得的模型预测能力进行评测呢
由于如果一味追求对训练数据的预测能力,所选择的模型的参数过多,复杂度比真实模型高,造成了一种特殊的现象,即: 模型对训练数据的预测能力很好,但对未知数据的预测能力很差。 所以我们需要有一种方法来评定模型对未知数据的预测能力,而不能仅仅盯着模型确定时的预测能力。
用泛化能力来描述模型对于未知数据的预测能力。
2.高效利用数据集的方法
交叉验证