第一章 统计学习方法概论
学习:如果一个系统能够通过执行某个过程改进它的性能,这就是学习
监督学习:从训练数据集中学习模型,对测试数据进行预测
回归问题:输入变量与输出变量均为连续变量的预测问题
分类问题:输出变量为有限个离散变量的预测问题
标注问题:输入变量与输出变量均为变量序列的预测问题
损失函数:度量预测错误的程度
经验风险:训练数据集的平均损失
期望风险:损失函数的期望值
根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险
泛化能力:指由该方法学习到的模型对未知数据的预测能力
过拟合:指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象
如果训练数据本身存在噪声,拟合曲线对未知数据的预测能力并不好
模型选择时,不仅要考虑对已知数据的预测能力,而且要考虑对未知数据的预测能力
正则化:在经验风险上加一个正则化项或罚项
奥卡姆剃刀原理:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型,也是应该选择的模型
交叉验证:首先随机地将已知数据切分为S个互不相交的大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试数据;
将这一过程对可能的S种选择重复进行,最后选出S次测评中平均测试误差最小的模型。
TP:将正类预测为正类数
FN:将正类预测为负类数
FP:将负类预测为正类数
TN:将负类预测为负类数
精确率:P=TP/(TP+FP)
召回率:R=TP/(TP+FN)
2/F1=1/P + 1/R
伯努利模型:定义在取值为0和1的随机变量上的概率分布。
假设观测到伯努利模型n次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。
机器学习:在计算机系统中,经验通常以数据形式存在,机器学习所研究的主要内容,是关于在计算机上从数据产生模型的算法,即学习算法。
有了学习算法,我们把经验数据提供给他,它就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应的判断。