机器学习笔记总结
预习部分
第一章
第一章主要讲述了机器学习与模式识别的概念,
模型的概念和组成、特征向量的一些计算
机器学习的基本概念
机器学习可以分为监督式学习,无监督式学习,半监督式学习,强化学习。
以及模型的泛化能力,模型训练过程中存在的问题,如
1、训练样本稀疏:给定的训练样本数量是有限的,很难完整表达样本的真实分布
2、训练样本采样过程可能不均匀:有些区域采样密一些,有些区域采样疏一些
3、一些样本可能带有噪声
还有过拟合的概念
模型训练阶段表现很好,但是在测试阶段表现差
模型过于拟合训练
如何提高泛化能力
1、选择复杂度适合的模型:模型选择
2、正则化:在目标函数中加入正则项
评估方法与性能指标有留出法、交叉验证法、留一法
性能度量
二分类问题常用的评价指标时查准率和查全率。
根据预测正确与否,将样例分为以下四种:
1)True positive(TP): 真正例,将正类正确预测为正类数;
2)False positive(FP): 假正例,将负类错误预测为正类数;
3)False negative(FN):假负例,将正类错误预测为负类数;
4)True negative(TN): 真负例,将负类正确预测为负类数。
第二章
第二章主要讲的是基于距离的分类器
基于距离的分类的基本概念
把样本到每个类的距离作为决策模型,将测式样本判定为与其距离最近的类
常见的几种距离度量
欧氏距离(Euclidean Distance)
曼哈顿距离(Manhattan Distance)
加权欧式距离
MED分类器最小欧氏距离分类器
距离衡量:欧氏距离
类的原型:均值
特征白化
目的:将原始特征映射到新的一个特征空间,使得在新空间中特征的协方差为单位矩阵,从而去除特征变化的不同及特征之间的相关性
将特征转化分为两步:先去除特征之间的相关性(解耦),然后再对特征进行尺度变化(白化)
马氏距离
马氏距离表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。
MICD分类器(最小类内距离分类器)
距离度量:马氏距离
类的原型:均值
MICD分类器的问题
MICD分类器会选择方差较大的类
第三章
第三章主要讲述的是贝叶斯决策与学习
先验概率 ( Prior probability)先验概率是在缺乏某个事实的情况下描述一个变量;
后验概率 ( posterior probability) 后验概率可以根据通过Bayes定理, 用先验概率和似然函数计算出来。
MAP分类器
最大后验概率分类器:将测试样本决策分类给后验概率最大的类
MAP分类器决策误差:给定一个样本x,MAP分类器决策产生的误差可以用概率误差表达,概率误差等于未选择的类所对应的后验概率
贝叶斯分类器:在MAP分类器的基础上,加入决策风险因素,得到贝叶斯分类器
参数估计方法:
极大似然估计:最大似然估计的目的是利用已知的样本结果,反推最有可能导致这样参数值。
贝叶斯估计:已知样本满足某种概率分布,但参数未知。贝叶斯估计把待估参数看成符合某种先验概率分布的随机变量。对样本进行观测的过程就是把先验概率密度转化为后验概率密度,这样就利用样本信息修正了对参数的初始估计值。
KNN估计
直方图估计
核密度估计:采用平滑的峰值函数(“核”)来拟合观察到的数据点,从而对真实的概率分布曲线进行模拟。
第四章
第四章主要讲述的是线性判定与回归
生成模型的优势
可以根据p(x)采样新的样本数据
可以测验出较低概率的数据,实现离群点检测。
生成模型的劣势
如果高维的x,需要大量训练样本才能准确的估计p(x),否则会出现维度灾难问题。
判别模型:给定训练样本{Xn},直接在输入空间内估计其后验概率P(Ci|x)
线性判据:如果判别模型f(x)是线性函数,则f(x)是线性判据
感知机算法
感知机算法目的:根据标记过的训练样本{(xn,tn)}学习模型参数:w,w0
并行感知机
串行感知机
Fisher线性判据的基本原理:找到一个最合适的投影轴,使两类样本在该轴上投影的重叠部分最少,从而使分来效果达到最佳
最佳标准之一:投影后,使得不同类别的样本分布的类间差异尽可能大,同时使得各自类内样本分布的离散程度尽可能小
支持向量机基本概念:设计思想给定一组训练样本,使得两个类中与决策边界最近的训练样本到决策边界之间的距离最大
拉格朗日对偶问题
复习部分
在机器学习的过程中,我在课后复习中做了一些笔记,复习笔记的博客链接如下:
第一章复习
第二章复习
第三章复习
第四章复习
机器学习心得
在学习机器学习的过程中,我发现要运用到很多概率论和线性代数的知识,并且学习过程中,一些公式最好能自己推出来,并且理解概念是很重要的。