• 作业2


    评估方法

    留出法

    数据集分成两部分,一部分训练,一部分拿来测试。

    K 折交叉验证

    数据集分成 K 部分,K-1 部分训练,一部分拿来测试。轮流进行 K 次。

    留一验证

    每次只取数据集中的一个样本做测试集,剩余的做训练集。
    K 等于数据集数量的 K 折交叉验证

    评价指标

    基本概念

    真阳性(TP),假阳性(FP),真阴性(TN),假阴性(FN)

    准确度

    (Accuracy = frac{TP+TN}{TN+FN+FP+TP})

    精度

    (precision = frac{TP}{FP+TP})

    召回率

    (recall = frac{TP}{FN+TP})

    F-Score

    (F = frac{(a^2+1)*precision*recall}{a^2*precision+recall})

    分类器

    MED 分类器

    欧式距离,计算平均欧式距离,平均距离离得近的就是那一类。
    缺点:没有考虑特征变化的不同及特征之间的相关性。

    MICD 分类器

    马式距离,计算平均马式距离,平均距离离得近的就是那一类。
    缺点:会选择方差较大的类。

    特征白化

    特征转换分为两步:先去除特征之间的相关性(解耦),然后再对特征进行尺度变换(白化),使每维特征的方差相等。
    解耦:去除相关性。
    白化:方差一致。

    贝叶斯规则

    (p(C_i|x)=frac{p(x|C_i)p(C_i)}{p(x)})
    (p(Ci)) 先验概率
    (p(x|Ci)) 观测似然概率
    (p(x)=∑jp(x|cj)p(cj)),所有类别样本x的边缘概率

    MAP 分类器

    利用后验概率作为度量标准,最大后验概率分类器

    最大似然估计

    给定的N个训练样本都是符合iid条件的,从 (p(x|θ)) 采样

    线性判据

    若判别模型 (f(x)) 是线性函数,则 (f(x)) 为线性判据,适合于二分类问题,决策边界为线性的,多分类问题下任意两类的决策边界也是线性。
    优势是计算量少,适用于训练样本少的情况。

    Fisher 判据

    利用一些方法进行降维,然后尽量增大类间距离(类间散度),减小类内距离(类内散度)

    支持向量机

    选两类中距离决策边界最大的训练样本,使这两个向量距离尽可能大,来达到增大类间散度的目的。这两个向量被称作支持向量。

    拉格朗日乘数法

    求解条件下的最优解

  • 相关阅读:
    [CALayer release]: message sent to deallocated instance 的原因
    Java格式化打印及数字格式化
    Java断言关键字
    Java数值使用下划线
    Java数组复制
    .net你必须知道的事儿 1.5
    .net你必须知道的事儿 1.4
    .net你必须知道的事儿 1.3
    .net你必须知道的事儿 1.2
    .net你必须知道的事儿 1.1
  • 原文地址:https://www.cnblogs.com/jhy16193335/p/12830519.html
Copyright © 2020-2023  润新知