• 2.4 statistical decision theory


    在讲完最小二乘(linear regression)和K近邻后,进入本节。

    引入符号:

    $Xin R^p$ X为维度为p的输入向量

    $Yin R$ Y为输出,实数

    $P(X,Y)$ 为两者的联合概率分布

    $f(X)$ 为预测函数,给定X,输出Y

    a.使用squared error loss(L2)作为损失函数

    $L(Y,f(X))={(Y-f(X))}^2$

    EPE(excepted prediction error)为

    $EPE(f)=E({(Y-f(X))}^2) \ =int int {[y-f(x)]}^2 P(x,y) dxdy=int [int {[y-f(x)]}^2 P(y|x) dy]p(x)dx \ =E_XE_{Y|X}({[Y-f(X)]}^2|X)$

    最小化EPE,在每个点上f(x)需要满足:

    $f(x)={argmin}_c E_{Y|X}({[Y-c]}^2|X=x)\ ={argmin}_c int [y^2-2yc+c^2]P(y|X=x)dy={argmin}_c E_{Y|X}(Y^2)-2cE_{Y|X}(Y)+c^2$

    对上式的c求导,置为0:

    $c=E(Y|X=x)$

    所以,当squared error loss时,给定X,最好的预测为条件均值

    K近邻实际给出的是(1)对条件均值的点估计(2)X=x被模拟为在某近似区域

    linear regression则假设这些条件均值能用线性函数近似

    b.使用L1作为损失函数

    $L(Y,f(X))={|Y-f(X)|}$

    $f(x)={argmin}_c E_{Y|X}({|Y-c|}|X=x)\ ={argmin}_c int_{-infty}^c(y-c)P(y|X=x)dy+int_c^{infty}(c-y)P(y|X=x)dy\ ={argmin}_c int_{-infty}^c yP(y|X=x)dy-cint_{-infty}^c P(y|X=x)dy+cint_c^{infty}P(y|X=x)dy-int_c^{infty}yP(y|X=x)dy$

    对c求导,置为0:

    第一部分:$cP(y=c|X=x)$

    第二部分:$-int_{-infty}^c P(y|X=x)dy-cP(y=c|X=x)$

    第三部分:$int_{c}^{infty}P(y|X=x)dy-cP(y=c|X=x)$

    第四部分:$cP(y=c|X=x)$

    有$int_{c}^{infty}P(y|X=x)dy=int_{-infty}^c P(y|X=x)dy$

    所以,当为L1作为损失函数时,给定X,最好的预测为条件中値

  • 相关阅读:
    【动态规划/二维背包问题】mr355-三角形牧场
    【动态规划】mr354-坐车看球
    【深度优先搜索】mr353-取奶
    【动态规划】mr351-办签证
    【贪心】POJ2393-Yogurt Factory
    centos 7 systemctl
    linux 程序或服务开机自启动
    linux终端快捷键
    linux 安装
    unix
  • 原文地址:https://www.cnblogs.com/porco/p/4682188.html
Copyright © 2020-2023  润新知