模型选择的方法：AIC，k-折交叉验证

模型选择的方法：AIC，k-折交叉验证

AIC

此处模型选择我们只考虑模型参数数量，不涉及模型结构的选择。

很多参数估计问题均采用似然函数作为目标函数，当训练数据足够多时，可以不断提高模型精度，但是以提高模型复杂度为代价的，同时带来一个机器学习中非常普遍的问题——过拟合。所以，模型选择问题在模型复杂度与模型对数据集描述能力（即似然函数）之间寻求最佳平衡。

人们提出许多信息准则，通过加入模型复杂度的惩罚项来避免过拟合问题，此处我们介绍一下常用的两个模型选择方法——赤池信息准则（Akaike Information Criterion，AIC）和贝叶斯信息准则（Bayesian Information Criterion，BIC）。

AIC是衡量统计模型拟合优良性的一种标准，由日本统计学家赤池弘次在1974年提出，它建立在熵的概念上，提供了权衡估计模型复杂度和拟合数据优良性的标准。

通常情况下，AIC定义为：

BIC

其中k是模型参数个数，L是似然函数。从一组可供选择的模型中选择最佳模型时，通常选择AIC最小的模型。

当两个模型之间存在较大差异时，差异主要体现在似然函数项，当似然函数差异不显著时，上式第一项，即模型复杂度则起作用，从而参数个数少的模型是较好的选择。

一般而言，当模型复杂度提高（k增大）时，似然函数L也会增大，从而使AIC变小，但是k过大时，似然函数增速减缓，导致AIC增大，模型过于复杂容易造成过拟合现象。目标是选取AIC最小的模型，AIC不仅要提高模型拟合度（极大似然），而且引入了惩罚项，使模型参数尽可能少，有助于降低过拟合的可能性。

BIC（Bayesian InformationCriterion）贝叶斯信息准则与AIC相似，用于模型选择，1978年由Schwarz提出。训练模型时，增加参数数量，也就是增加模型复杂度，会增大似然函数，但是也会导致过拟合现象，针对该问题，AIC和BIC均引入了与模型参数个数相关的惩罚项，BIC的惩罚项比AIC的大，考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高。

其中，k为模型参数个数，n为样本数量，L为似然函数。kln(n)惩罚项在维数过大且训练样本数据相对较少的情况下，可以有效避免出现维度灾难现象。

k-折交叉验证

k-折交叉验证将样本集随机划分为k份，k-1份作为训练集，1份作为验证集，依次轮换训练集和验证集k次，验证误差最小的模型为所求模型。具体方法如下：

1.随机将样本集S划分成k个不相交的子集，每个子集中样本数量为m/k个，这些子集分别记作 $S_1,...,S_k$ ；

2.对于每个模型 $M_i$ ，进行如下操作：

for j=1 to k

将 $S_1cup...cup S_{j-1}cup S_{j+1}cup...cup S_k$ 作为训练集，训练模型 $M_i$ ，得到相应的假设函数 $h_{ij}$ 。

再将 $S_j$ 作为验证集，计算泛化误差 $hat{varepsilon}_{S_j}(h_{ij})$ ；

3.计算每个模型的平均泛化误差，选择泛化误差最小的模型 $M_i$ 。
相关阅读:
通过Javascript调用微软认知服务情感检测接口的两种实现方式
 Microsoft Flow 概览
 使用PowerApps快速构建基于主题的轻业务应用 —— 进阶篇
 从三个语言（C++，Java，C#）的几个性能测试案例来看性能优化
 自己动手，打造轻量级VSCode/C#环境代替LinqPad
2015年总结
 将知识变成你的技能点
 瞎子摸象与刻舟求剑
 俺的追求，下一个五年的指导纲领
 工作中任务管理的四个原则和四个技能
原文地址：https://www.cnblogs.com/zhangshilin/p/7258789.html