统计学习方法概论

统计学习方法概论

统计学习是一门既有趣又枯燥的概念。有趣在于研究的结果往往能够对我们有启发性的作用，枯燥在于我们在学习它的时候是需要花费不少时间的，对于一些概念的理解，对于模型的选择等等都是一大堆的数学公式，刚刚入门的我们往往觉得这里有些无趣。

统计学习具有很多专业性词汇，在国内目前的教材普遍上不够优秀的情况下，阅读国外的书籍是极有必要的，然而如果对英语不太熟悉的话，读起来也是很费时间的，所以从个人角度出发的话，推荐先读一本中文的入门书籍，也就是我手上的这本李航先生编写的统计学习方法了。

如下我针对这本书的第一章做一个总结

1.统计学习

　　统计学习分为监督学习、非监督学习、半监督学习、强化学习等。初入门的菜鸟比如我最开始研究的应该就是这里的监督学习了。

2.监督学习

　　也称有指导学习，即有结果变量指导学习过程，一般使用分类、回归等算法实现。

3.统计学习三要素

　　模型、策略、算法

4.模型评估与模型选择

　　这是一个比较重要的概念了，比如我们在实现目标的时候一般会提出多种方案，或者说是多种模型，那么怎么选择模型呢？这个时候就需要理论指导实践了，主要涉及到损失函数和过拟合，模型复杂度等概念。

5.正则化与交叉验证

　　正则化是选择模型的一种方法，就是对最小化经验误差函数上加约束，这种约束可以理解为先验知识。交叉验证则是通过把数据集分为训练集、测试集、验证集（一般没有用）来进行模型的选择。

6.泛化能力

　　所谓泛化能力，是指学习到的模型对未知数据的预测能力。一般使用测试误差来评价一种模型的泛化能力。

7.生成模型与判别模型

　　由数据学习联合概率密度分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型：P(Y|X)= P(X,Y)/ P(X)。

　　由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型，即判别模型。

8.分类问题

　　监督学习的核心问题之一，从字面上即可理解。分类的方法有：knn,感知机，朴素贝叶斯，决策树，Logistic regression等。

9.标注问题

　　可以看做是分类问题的一种推广，标注问题的输入时一个观测序列，输出时一个标记序列或状态序列。

10.回归问题

　　回归也是监督学习的核心问题之一，用于预测输入和输出之间的关系。可以分为一元回归和多元回归。
相关阅读:
[LeetCode] 875. Koko Eating Bananas 科科吃香蕉
 [LeetCode] 874. Walking Robot Simulation 走路机器人仿真
 [LeetCode] 995. Minimum Number of K Consecutive Bit Flips 连续K位翻转的最小次数
 [LeetCode] 873. Length of Longest Fibonacci Subsequence 最长的斐波那契序列长度
 [LeetCode] 872. Leaf-Similar Trees 叶结点相似的树
 [LeetCode] 870. Advantage Shuffle 优势洗牌
 [LeetCode] 869. Reordered Power of 2 重新排序为2的倍数
 [LeetCode] 868. Binary Gap 二进制间隙
 [LeetCode] 867. Transpose Matrix 转置矩阵
 [LeetCode] 866. Prime Palindrome 质数回文数
原文地址：https://www.cnblogs.com/nice-forever/p/4833773.html