统计学习三要素: 模型、策略、算法
统计学习关于数据的基本假设是同类数据具有一定的统计规律,这是统计学习的前提。
统计学习方法的一般步骤:
1)得到一个有限的训练数据集合;
2)确定包含所有可能的模型的假设空间,即学习模型的集合;
3)确定模型选择的准则,即学习的策略;
4)实现求解最优模型的算法,即学习的算法;
5)通过学习方法选择最优模型;
6)利用学习的最优模型对新数据进行预测或分析。
损失函数:
1)0-1损失函数
2)平方损失函数
3)绝对损失函数
4)对数损失函数
期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失。根据大数定律,当样本容量趋于无穷时,经验风险趋于期望风险。
结构风险在经验风险上加上表示模型复杂度的正则化项或罚项。结构风险最小化(SRM)可以有效防止过拟合。
生成方法由数据学习联合概率分布,然后求出条件概率分布作为预测的模型,即生成模型。典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型。
判别方法由数据直接学习决策函数或者条件概率分布作为预测的模型,即判别模型。典型的判别模型包括:k近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机模型、提升方法和条件随机场等。
生成方法的特点:生成方法可以还原出联合概率分布,而判别方法则不能;生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。
判别方法的特点:判别方法直接学习的是条件概率或决策函数,直接面对预测,往往学习的准确率更高;由于直接学习条件概率或决策函数,可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
分类问题评价指标:
预测为正 | 预测为负 | |
正类 | TP | FN |
负类 | FP | TN |
精确率定义为: P = TP/(TP+FP)
召回率定义为: R = TP/(TP+FN)
精确率和召回率的调和平均——F1值: 2/F1=1/P+1/R