统计学习是一门既有趣又枯燥的概念。有趣在于研究的结果往往能够对我们有启发性的作用,枯燥在于我们在学习它的时候是需要花费不少时间的,对于一些概念的理解,对于模型的选择等等都是一大堆的数学公式,刚刚入门的我们往往觉得这里有些无趣。
统计学习具有很多专业性词汇,在国内目前的教材普遍上不够优秀的情况下,阅读国外的书籍是极有必要的,然而如果对英语不太熟悉的话,读起来也是很费时间的,所以从个人角度出发的话,推荐先读一本中文的入门书籍,也就是我手上的这本李航先生编写的统计学习方法了。
如下我针对这本书的第一章做一个总结
1.统计学习
统计学习分为监督学习、非监督学习、半监督学习、强化学习等。初入门的菜鸟比如我最开始研究的应该就是这里的监督学习了。
2.监督学习
也称有指导学习,即有结果变量指导学习过程,一般使用分类、回归等算法实现。
3.统计学习三要素
模型、策略、算法
4.模型评估与模型选择
这是一个比较重要的概念了,比如我们在实现目标的时候一般会提出多种方案,或者说是多种模型,那么怎么选择模型呢?这个时候就需要理论指导实践了,主要涉及到损失函数和过拟合,模型复杂度等概念。
5.正则化与交叉验证
正则化是选择模型的一种方法,就是对最小化经验误差函数上加约束,这种约束可以理解为先验知识。交叉验证则是通过把数据集分为训练集、测试集、验证集(一般没有用)来进行模型的选择。
6.泛化能力
所谓泛化能力,是指学习到的模型对未知数据的预测能力。一般使用测试误差来评价一种模型的泛化能力。
7.生成模型与判别模型
由数据学习联合概率密度分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:P(Y|X)= P(X,Y)/ P(X)。
由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。
8.分类问题
监督学习的核心问题之一,从字面上即可理解。分类的方法有:knn,感知机,朴素贝叶斯,决策树,Logistic regression等。
9.标注问题
可以看做是分类问题的一种推广,标注问题的输入时一个观测序列,输出时一个标记序列或状态序列。
10.回归问题
回归也是监督学习的核心问题之一,用于预测输入和输出之间的关系。可以分为一元回归和多元回归。