机器学习之基础一

机器学习之基础一

机器学习基本知识

总结自李航《统计学习方法》、周志华《机器学习》和国外书籍《机器学习实战》

一、机器学习基本知识

机器学习的概念这里不再赘述，有很多解释，总的来说，就是从已有经验中总结规律，抽象知识，使其具有基本的判断，推理能力等等的过程。

机器学习有三要素：模型（能够大致拟合问题的假设空间）、策略（从假设空间中选取最优假设的策略）、算法（达到目标的最优化计算算法）

模型中，可以分类为生成式模型（目标条件概率分布，还原联合分布，速度快，隐变量仍适用）和判别式模型（目标函数或者联合分布，准确率高，抽象能力好，简化）

策略中，常用损失函数（loss function代价函数）来度量错误程度，常见的损失函数有0-1损失，平方损失，绝对损失，对数损失，一般用L(Y，p(Y|X))表示。损失中，有期望损失（expected loss/risk）和经验损失（empirical loss/risk），期望误差是泛化能力的体现，数据集足够大的情况下，根据大数定理，经验风险接近于期望风险，由于数据集的缺陷，往往无法直接获得期望损失，且，N为样本容量，d为假设空间样本。机器学习中，有两种策略，经验风险最小化ERM=minR_emp和结构风险最小化。条件概率分布、对数似然损失函数的条件下，ERM等价于MLE，条件概率分布、对数似然损失函数，且复杂度由先验概率表示的条件下，SRM等价于MAP。分析SRM的表达式可知，相当于对ERM进行正则化了，正则化是复杂度的递增函数，J(f)表示模型复杂度，而目前大多数机器学习的损失过程都是SRM，就是在经验误差和模型复杂度之间权衡，获得泛化能力很好的模型。

二、相关曲线

正则化的出现是由于欠拟合和过拟合的出现，如图所示：

测试和训练来自于交叉验证，分成训练集，测试集，验证集。验证集用来模型选择，测试集评估模型，训练集用来训练模型。对数据集的操作，还有S-fold，leave-one-out，留出法，自助法。

方差，偏差，泛化误差的关系，如图：

期望泛化误差，偏差表示算法拟合能力，方差表示数据扰动的影响，噪声表示学习的难度，总之，泛化性能=算法能力+数据充分性+本身难度。

，f(x;D)预测输出，yD数据集标记，y真实标记。f^(x)期望预测，关于预测输出的期望值。

P-R曲线用来比较算法的优劣

TP正正；FN正负；FP负正；TN负负；准确率，召回率，此外还有，特别的，

如果算法的PR曲线被其他算法包住，则该算法性能比另一算法差，存在交叉，则通过PR曲线包围的面积来衡量算法优劣，但不好计算，其实通过平衡点（P=R）来表示，平衡点取值大，算法就好。

ROC曲线和AUC曲线：

实际过程中，ROC曲线不会很光滑，得到离散的AUC曲线，对样例进行某种排序，得到AUC曲线，具体请百度

其评判准则和PR曲线一致，依据包围面积来衡量好坏。

总结：一些ML的基本概念，和一些衡量指标，经常用到。
相关阅读:
1026: [SCOI2009]windy数 (数位DP）
Codeforces Round #603 (Div. 2)
小明种苹果（续）
1001: [BeiJing2006]狼抓兔子（最小割）
codeforces 990C Bracket Sequences Concatenation Problem
codeforces990D
codeforces 1037D. Valid BFS?
pytorch inception v3 KeyError: <class 'tuple'>解决方法
 codeforces 1025C Plasticine zebra
codeforces1027D
原文地址：https://www.cnblogs.com/blogwangwang/p/9608162.html

机器学习之基础一

机器学习基本知识