• 深入理解线性模型(三)---基于贝叶斯的估计


    更新时间:2019.10.31

    1. 引言

      在前两篇,我们分别从损失函数以及似然函数的角度来窥探了线性模型。接下来,继续从一个新的角度---贝叶斯统计来讨论一下线性模型。脸红

    2. 先验概率和后验概率

      谈起贝叶斯,就不得不提先验概率和后验概率。先验概率通常是通过历史或者经验得来的,而后验概率则是综合利用了先验信息和样本信息。因此,贝叶斯统计的出发点也是基于后验概率的。
      那么先验概率和后验概率实际上是怎样呢?以一个简单的例子为,由三家公司A、B、C合作生成一种产品,A公司承包50%的生产,B公司承包30%的生产,C公司承包剩下20%的生产。生产完后,三家公司把全部商品把包在一起,开开心心地去送货微笑。然而验货的时候发现出问题了,于是买家要求这几家公司作出赔偿。但是,各家公司都认为自己生产的产品没有任何的问题,各家公司的负责人争得面红耳赤吐血。最后,买家实在看不下去了,就跟他们说:“既然你们都觉得自家的生产没有问题,就按生产的份额来赔偿吧。”于是,A公司承担50%的责任,B公司承担30%的责任,C公司承担20%的责任。而这里“50%、30%、20%”也其实便是所谓的先验信息。
      而当我们知道A、B、C公司生产的不合格分别为P(A)、P(B)、P(C)时,对于追究责任时又会发生不同的变化。

    [P(A|不合格) = frac {0.5P(A)}{0.5P(A)+0.3P(B)+0.2P(C)}\ P(B|不合格) = frac {0.3P(B)}{0.5P(A)+0.3P(B)+0.2P(C)}\ P(C|不合格) = frac {0.5P(C)}{0.5P(A)+0.3P(B)+0.2P(C)}\ ]

      这里的(P(A|不合格)、P(B|不合格)、P(C|不合格))就是所谓的后验概率,它通过综合利用先验信息和数据信息来决定A、B、C公司分别应该承担的责任。而实际上P(A)、P(B)、P(C)也是一种后验概率,也就是某一家公司生产的不合格率,写清晰一点就是(P(不合格|A)、P(不合格|B)、P(不合格|C))
      于是便有了著名的贝叶斯公式:

    [P(A_1|B) = frac{P(A_1)P(B|A_1)}{sum_{i=1}^nP(A_i)P(B|A_i)} ]

      其中,(P(B) = sum_{i=1}^nP(A_i)P(B|A_i))为全概率公式

    3. 基于贝叶斯统计的估计思想

      在贝叶斯统计中,认为一切参数为随机变量。因此,对于线性模型(Y = Xeta +varepsilon),贝叶斯统计中同样也认为(eta)是一个随机变量,因此也服从一个分布(eta sim F(eta)),而这个(F(eta))也就是(eta)的一个先验分布。当固定X的时候,就称(F(eta|X))(eta)的后验分布,而这个分布综合了先验信息和数据信息。而贝叶斯统计的思路就是利用这个后验分布求后验均值/中位数等特征来作为(eta)

      以后验均值为例:(对于后验密度函数(f(eta|X)))

    [hat eta = E(eta) = int_{- infty}^{+ infty} eta f(eta|X) deta = int_{- infty}^{+ infty} eta frac{f(eta) f(X|eta)}{f(X)} deta = frac{1}{f(X)} int_{- infty}^{+ infty} eta f(eta) f(X|eta) deta ]

      其中,我们也把(f(eta) f(X|eta))称为核。由上述可以看出(f(eta|X))应该是和(f(eta)f(X|eta))成正比的,就差了一个常数,即有:

    [f(eta|X) propto f(eta) f(X|eta) = pi(eta)L(eta, X) ]

      其中,(pi(eta))指的是先验信息,(f(X|eta))就相当于似然函数,因为我们之前求似然函数的时候也是把(eta)固定后写出的。

    4. 线性模型再议

      这里只议论假设1的情况,其他的假设也是类似的。当我们的模型基于假设1的时候,即(varepsilon sim N(0, sigma^2I_n))

    [L(eta, sigma^2, Y, X) = (frac{1}{sqrt{2pi}sigma})^n e^{- frac{1}{2 sigma^2} displaystyle sum_{i=1}^n(y_i - x_ieta)^2} ]

      因此,有:
    egin{equation}
    egin{split}
    f(eta|(x,y)) & propto pi(eta)(frac{1}{sqrt{2pi}sigma})^n e^{- frac{1}{2 sigma^2} displaystyle sum_{i=1}^n(y_i - x_ieta)^2}\
    & propto pi(eta) e^{- frac{1}{2 sigma^2} displaystyle sum_{i=1}^n(y_i - x_ieta)^2}
    end{split}
    end{equation}

      其实我们可以发现(f(eta|(x,y)))也有(sum_{i=1}^n(y_i - x_ieta)^2)的部分,这正好也对应着损失函数,此外在这里的先验概率(pi(eta))实际上是由我们来定的。

    5. 先验信息的确定方法

    5.1 无信息先验

      当我们对(eta)一无所知的时候,那么我们便认为取任何值都是等可能的,此时的先验概率(pi(eta) propto k),k为常数

    5.2 共轭先验

      所谓共轭先验也就是取一个先验概率,乘以似然函数,不会改变似然的分布。例如正态分布和正态分布是共轭的,伽马分布和伽马分布是共轭的
      根据共轭先验,我们可以设(pi(eta) sim N(eta, sigma_{eta}^2)),即(pi(eta) propto e^{aeta^2 + beta + c}),之后只要对(pi(eta)L(eta, sigma^2, Y, X))进行配平方,配成(e^{-frac{(x - mu)^2}{2sigma^2}})的形式,里面的(mu)就是我们要求的估计
      而如果对(sigma^2)来说,
    egin{equation}
    egin{split}
    f(sigma^2|X,Y) & propto pi(sigma^2)L(eta, sigma^2, Y, X)\
    & propto pi(sigma^2) (sigma^2 )^{ frac{-n}{2}} e^{frac{-k}{ sigma^2}}
    end{split}
    end{equation}

      其中,(k= frac{1}{2} sum_{i=1}^n(y_i - x_ieta)^2)
      可以看出似然函数应该是一个伽马分布((p(x) = frac {lambda^alpha}{Gamma(alpha)}x^{alpha - 1}e^{alpha x})),那么根据共轭先验(pi(sigma))应该也是一个伽马分布。

    • tip:除了这两种方法之后,还有一种信息最大的方法,因为没怎么了解过,在这里就不谈了。吐血

    6. 结语

      至此,我们终于完成了分别从损失函数、似然函数和贝叶斯这三个角度讨论线性模型的伟业微笑。实际上,这三种角度其实是模型的三种不同的范式,有许多问题都可以分别从这三个框架来进行研究。

  • 相关阅读:
    js中调用ocx控件
    web.xml配置文件中<async-supported>true</async-supported>报错的解决方案
    shiro整合spring配置
    shiro中的reaml理解及实现机制
    oracle数据库安装
    关于身份认证、角色认证和权限认证的shiro-web例子
    创建maven管理的web项目
    hadoop Hive 的建表 和导入导出及索引视图
    hadoop Mapreduce组件介绍
    hadoop hive组件介绍及常用cli命令
  • 原文地址:https://www.cnblogs.com/liangjianli/p/11771827.html
Copyright © 2020-2023  润新知