监督学习之模型评估与选择

监督学习之模型评估与选择
一、定义：

监督学习主要包括分类和回归

当输出被限制为有限的一组值(离散数值)时使用分类算法

当输出可以具有范围内的任何树值(连续数值)时使用回归算法

相似度学习是和回归和分类都密切相关的一类监督学习，它的目的是使用相似函数从样本中学习，这个函数可以度量两个对象之间的相似度或关联度

二、监督学习三要素

模型：总结数据的内在规律，用数据函数描述的系统

策略：选取最优模型的评价准则

算法：选取最优模型的具体方法

三、模型评估：

1、训练集和测试集
- 训练集（training set）：训练模型的数据
- 测试集(test set)：测试模型的好坏
2、损失函数和经验风险

a、损失函数（loss function）：用来度量偏差的程度，记作：L(Y,f(X)). Y为真实结果，f(X)为预测结果，
- 损失函数是模型里面系数的函数
- 损失函数值越小，模型就越好。
- 常见的损失函数：
b、经验风险（Empirical risk）：模型f(X)关于训练数据集的平均损失。

经验风险最小化（Empirical risk Minimization ERM）：经验风险最小的模型就是最优模型。【样本足够大时，ERM的学习有很好的效果】

3、训练误差和测试误差

训练误差：关于训练集的平均损失

测试误差：关于测试集的平均损失，反映了模型对未知数据的预测能力，这种能力称为泛化能力。

四、模型选择：

1、过拟合和欠拟合
- 过拟合：特征集过大，把噪声数据的特征也学习到了，不能很好地识别数据，不能正确的分类
- 欠拟合：特征集过小，导致模型不能很好地拟合数据【对数据的特征学习得不够】
2、正则化和交叉验证

a、正则化（防止过拟合）：将结构风险最小化（Structural rick Minimization SRM )的过程。

在经验风险上加上表示模型复杂度的正则化项(regularizer)，或者叫惩罚项。

正则化项：一般是模型复杂度的单调递增函数，即模型越复杂，正则化值越大。

b、交叉验证：数据集不足时，可以重复地利用数据。
- 简单交叉验证
- S折交叉验证
- 留一交叉验证
相关阅读:
C#中使用Oracle存储过程返回结果集
 微信公众平台开发教程（九）微信公众平台通用开发框架
 微信公众平台开发教程（八）Session处理
 微信公众平台开发教程（七）安全策略
 微信公众平台开发教程（六）获取个性二维码
 微信公众平台开发教程（五）自定义菜单（含实例源码）
微信公众平台开发教程（三）基础框架搭建
 微信公众平台开发教程（一）微信公众账号注册流程
 当"唐僧"没那么容易
 C#编程总结（六）异步编程
原文地址：https://www.cnblogs.com/wjh123/p/11441141.html