• 第二次作业


    模式识别

    基本定义

    根据已有知识的表达,针对待识别模式,判别决策其所属的类别或者预测其对应的回归值。
    根据任务,模式识别可以划分为“分类”和“回归”两种形式,其中分类的输出量是离散的,回归的输出量是连续的。

    数学解释

    模式识别可以看作一种函数映射(f(x))将待识别模式(x)从输入空间映射到输出空间,函数(f(x))是关于已有知识的表达。其输出可以是确定值也可以是概率值。

    模型

    已有知识的表达方式,函数(f(x))

    特征提取

    从原始输入数据提取更有效的信息

    特征向量

    多个特征构成的向量

    特征空间

    从坐标原点到任意一点之间的向量即为该模式的特征向量

    特征向量相关性

    点积

    表征两个特征向量的共线性,即方向上的相似程度。
    代数定义:

    [x cdot y=x^Ty=y^Tx=sum^{p}_{j=1}x_jy_j ]

    几何定义:

    [x cdot y=||x||||y||cos heta ]

    两个向量的夹角:反映两个向量在方向上的差异性。

    [cos heta=frac{x^Ty}{||x||||y||} ]

    特征向量投影

    将向量x垂直投影到向量y方向上的长度

    [x_0=||x||cos heta ]

    残差向量

    向量x分解到向量y方向上得到的投影向量和原向量x的误差:

    [r_x=x-x_0=x-frac{||x||cos heta}{||y||}y ]

    特征向量的欧式距离

    表征两个向量之间的相似程度(考虑方式和长度)

    [d(x,y)=(x-y)^T(x-y)=sum^{p}_{j=1}(xj-yj)^2 ]

    机器学习

    基本内容

    模型的参数与结构

    [y=f(x| heta) ]

    参数:( heta={ heta_1.…, heta_M})

    样本量和模型参数量的关系

    相等:具有唯一解,大于:无准确解,小等于:无数个解或无解。

    目标函数(L( heta|{x_i}))

    又称为代价函数或损失函数,作为选择最优参数解的一个标准

    评估模型性能

    方法

    • 留出法:将数据集随机划分为训练集和测试集,利用训练集训练模型,用测试集评估,取统计值。
    • k折交叉验证:将数据集分割成k个子集,从其中选取单个子集作为测试集,其他k-1个子集作为训练集。
    • 留1验证:选取数据集中的一个样本做测试集,剩余的做训练集,具有确定性,存在分层问题问题。

    指标

    • 准确度:(A=frac{TP+TN}{TP+TN+FP+FN})
    • 查准率:(S=frac{TN}{TN+FP})
    • 召回率:(R=frac{TP}{TP+FN})
    • F-Score:(F=frac{(a^2+1) imes precision imes recall}{a^2 imes precision+recall}),至a=1,得到F1-score。
    • PR曲线:召回率-精度
    • ROC曲线:FPR-TPR
    • AUC:曲线下方面积

    MED分类器

    利用欧式距离作为度量标准,最小欧式距离分类器,会存在特征变化的不同及特征之间的相关性,可以通过特征白化和特征解耦来去除特征间的相关性。

    [yin C_1,quad ifquad d(y,C_1)<d(y,C_2) ]

    MICD分类器

    利用马氏距离作为度量标准,最小类内距离分类器,存在均值一样,会选择方差较大的类
    马氏距离:

    [d^2_E(y_1.y_2)=(x_1-x_2)^Tsum^{-1}_{x}(x_1-x_2) ]

    [xin C_1,quad ifquad d_M(x,C_1)<d_M(x,C_2) ]

    贝叶斯规则

    [p(C_i|x)=frac{p(x|C_i)p(C_i)}{p(x)} ]

    • (p(C_i))先验概率
    • (p(x|C_i))观测似然概率
    • (p(x)=sum_jp(x|c_j)p(c_j)),所有类别样本x的边缘概率

    MAP分类器

    利用后验概率作为度量标准,最大后验概率分类器

    [xin argmax p(C_i|x) ]

    决策边界

    [p(x|C_1)p(C_1)-p(x|C_2)p(C2)=0 ]

    决策误差

    为未选择的类所对应的后验概率

    [p(error|x)= egin{cases} p(C_2|x) & ext{if decide $xin C_1$} p(C_1|x) & ext{if decide $xin C_2$} end{cases} ]

    最大似然估计

    给定的N个训练样本都是符合iid条件的,从(p(x| heta))采样
    联合概率密度:

    [p(x_1,x_2,…,x_N| heta)=prod^N_{n=1}p(x_n| heta) ]

    目标函数:

    [ heta_ML=argmaxprod^N_{n=1}p(x_n| heta) ]

    线性判据

    若判别模型(f(x))是线性函数,则(f(x))为线性判据,适合于二分类问题,决策边界为线性的,多分类问题下任意两类的决策边界也是线性。

    优势

    其优势在于计算量少,适用于训练样本少的情况。

    [f(x)=w^Tx+w_0 ]

  • 相关阅读:
    【索引】SyntaxHighlighter 使用参考
    【索引】博客心得
    SyntaxHighlighter 使用参考(一) 概述
    PEGA 十合一吉他控制器连接电脑玩《吉他英雄3》
    从SourceForge上获取CVS管理的开源代码
    从SourceForge上获取SVN管理的开源代码
    整数哈希介绍
    回文时间
    D2js 是如何处理并发的
    Windows 安装JRuby 生成 war 到 tomcat 运行
  • 原文地址:https://www.cnblogs.com/pullself/p/12832695.html
Copyright © 2020-2023  润新知