1.回归问题:输入变量和输出变量均为连续变量的预测问题。等价于函数拟合,回归模型表示输入变量到输出变量之间映射的函数。
2. 分类问题:输出变量为有限个离散变量的预测问题称为分类问题
3.标注问题:输入变量和输出变量均为变量序列的预测问题
4.假设空间:模型属于有输入空间到输出空间的映射的集合,这个集合就是假设空间。假设空间的确定意味着学习范围的确定。
5.统计学习方法的三要素:方法=模型+策略+算法。模型就是所要学习的条件概率或决策函数。 策略是从假设空间中按照什么样的准则学习或者选择最优模型,引入损失函数和风险函数。算法是指学习模型的具体计算方法。
6. 损失函数是f(x)和Y的非负实值函数,记作L(Y,f(x)), 常用的损失函数有(1)0-1损失函数,(2)平方损失函数,(3)绝对损失函数,(4)对数损失函数
7. 经验风险最小化:如最大似然估计,容易出现过拟合。
8. 结构风险最小化:等价于正则化,在经验风险上加上表示模型复杂度的正则化项或惩罚项。如贝叶斯估计中的最大后验概率估计
9.防止过拟合的方法:正则化和交叉验证。正则化项一般是模型复杂度 的单调递增函数,模型越复杂,正则化值就越大,可以是模型参数向量的范数。
10.分类问题可以用到的统计学习方法:k近邻法,感知机,朴素贝叶斯法,决策树,决策列表,统计斯谛回归模型,支持向量机,提升方法,贝叶斯网络,神经网络等
11.标注问题用到的统计学习方法:隐马尔可夫模型,条件随机场