• 概率论复习 – 基础概率分布


    概率论复习 – 基础概率分布

    发现对概率论的基本概念理解不是很深入,导致看后面的东西时常有些莫名其妙的疑惑,回头来看看概率论与统计

    1. 累积分布函数(CDF – Cumulative distribution function 或直接就叫 distribution function)

            CDF其定义为

    FX(x)=P(Xx)

            正如统计学完全教程里说的,这个CDF函数是很有迷惑性的,有必要仔细理解它。我以前每次看这个表达式都是一闪而过,没有好好理解,而它的真正的意义应该是表示随机变量小于或等于其某一个取值x的概率。设一个例子,抛一枚均匀的硬币两次,设随机变量X表示出现正面的次数,那么P(X=0)=P(X=2)=1/4P(X=1)=1/2,所以这个函数的曲线如下图:

            对于这个图,要想清楚清楚如下两个问题:

            1)为什么函数始终是右连续的? 因为根据CDF的表达式中的小于等于号,当X=x时,P(X=x)的那部分应该被加到FX上,因此在X=x处有一个值的跃升。如X=1时,P(X=1)已经是1/2了

            2)为什么FX(1.4)=0.75?  要注意P(1X<2)=1/2(虽然其实X只能取整数值),但是FX是值x之前所有概率的累加,所以FX(1.4)可不是1/2,而是3/4 !!

    因此F函数始终是非降的,右连续的,且limxF(x)=1

    2. 概率密度函数(PDF – Probability density function

           对于离散随机变量的PDF为:

    fX(x)=P(X=x)

           对于连续随机变量,若存在一个函数fX对所有x均满足fX(x)0bafX(x)dx=1,并且有

    P(a<X<b)=bafX(x)dx

    fX就是FX(x)的PDF,并且FX(x)=xfX(t)dt, fX(x)=ddxFX(x)

    表面看起来这个定义简单,但是要深入理解这些式子的含义,这个定义对后面整个机器学习的内容都是最基础最重要的。

    其实后面所谓的 density estimation(EM algorithm和Sampling Methods)都是要估计出一个PDF来。

    最简单的PDF就是比如翻硬币的例子,假如翻正面概率0.4,反面0.6,则这个模型的PDF就是{0.4, 0.6}

    稍微复杂点的PDF就是univariate Gaussian啦,其实也不复杂,高中就见过

    3. 伯努利、二项分布、多项分布

    伯努利分布就是对单次抛硬币的建模,X~Bernoulli(p)的PDF为f(x)=px(1p)1x,随机变量X只能取{0, 1}。对于所有的pdf,都要归一化!而这里对于伯努利分布,已经天然归一化了,因此归一化参数就是1。

    很多次抛硬币的建模就是二项分布了。注意二项分布有两个参数,n和p,要考虑抛的次数。

    二项分布的取值X一般是出现正面的次数,其PDF为:

    f(x)=P(X=x)=P(X=x|n,p)=Cxnpx(1p)nx

    Cxn就是二项分布pdf的归一化参数。如果是beta分布,把Cxn换成beta函数分之一即可,这样可以从整数情况推广为实数情况。所以beta分布是二项分布的实数推广!

    多项分布则更进一层,抛硬币时X只能有两种取值,当X有多种取值时,就应该用多项分布建模。

    这时参数p变成了一个向量p⃗ =(p1,,pk)表示每一个取值被选中的概率,那么X~Multinomial(n,p)的PDF为:

    f(x)=P(x1, , xk|n,p⃗ )=(nx1, , xk)px11pxkk=n!ki=1xi!pxix


  • 相关阅读:
    ambry集群搭建(无SSL验证的方式)
    接口属性命名不规范的处理方式
    windows下搭建ElasticSearch
    MyBatis-Plus分页插件——PageHelper和IPage原理介绍
    饥荒服务器搭建加mod使用 阿里云服务器 Ubuntu18
    WSL2+Ubuntu20.04桌面功能配置
    设计模式学习总结(Java版)
    Java in 蓝桥杯
    Windows 批处理脚本学习
    Vue风格指南小结
  • 原文地址:https://www.cnblogs.com/yymn/p/4454447.html
Copyright © 2020-2023  润新知