评估方法
留出法
数据集分成两部分,一部分训练,一部分拿来测试。
K 折交叉验证
数据集分成 K 部分,K-1 部分训练,一部分拿来测试。轮流进行 K 次。
留一验证
每次只取数据集中的一个样本做测试集,剩余的做训练集。
K 等于数据集数量的 K 折交叉验证
评价指标
基本概念
真阳性(TP),假阳性(FP),真阴性(TN),假阴性(FN)
准确度
(Accuracy = frac{TP+TN}{TN+FN+FP+TP})
精度
(precision = frac{TP}{FP+TP})
召回率
(recall = frac{TP}{FN+TP})
F-Score
(F = frac{(a^2+1)*precision*recall}{a^2*precision+recall})
分类器
MED 分类器
欧式距离,计算平均欧式距离,平均距离离得近的就是那一类。
缺点:没有考虑特征变化的不同及特征之间的相关性。
MICD 分类器
马式距离,计算平均马式距离,平均距离离得近的就是那一类。
缺点:会选择方差较大的类。
特征白化
特征转换分为两步:先去除特征之间的相关性(解耦),然后再对特征进行尺度变换(白化),使每维特征的方差相等。
解耦:去除相关性。
白化:方差一致。
贝叶斯规则
(p(C_i|x)=frac{p(x|C_i)p(C_i)}{p(x)})
(p(Ci)) 先验概率
(p(x|Ci)) 观测似然概率
(p(x)=∑jp(x|cj)p(cj)),所有类别样本x的边缘概率
MAP 分类器
利用后验概率作为度量标准,最大后验概率分类器
最大似然估计
给定的N个训练样本都是符合iid条件的,从 (p(x|θ)) 采样
线性判据
若判别模型 (f(x)) 是线性函数,则 (f(x)) 为线性判据,适合于二分类问题,决策边界为线性的,多分类问题下任意两类的决策边界也是线性。
优势是计算量少,适用于训练样本少的情况。
Fisher 判据
利用一些方法进行降维,然后尽量增大类间距离(类间散度),减小类内距离(类内散度)
支持向量机
选两类中距离决策边界最大的训练样本,使这两个向量距离尽可能大,来达到增大类间散度的目的。这两个向量被称作支持向量。
拉格朗日乘数法
求解条件下的最优解