• 统计基础


    统计基础

    前言

    机器学习须要深厚的数学基础,矩阵、统计、优化,这些都是基本功。勿在浮沙筑高台!所以在本文中将总结学习统计基础知识,夯实基础!

    正态分布

    正态分布在机器学习中有着重要的应用,在数学上有这样一个结论:依据中心极限定理,多个随机变量之和服从正态分布。

    依据这个结论,在误差分析时,
    能够觉得所产生的误差是多个独立同分布误差的叠加,因此终于的误差服从正态分布。

    1. 单变量正态分布
      N(x|μ,σ2)=1(2πσ2)12exp{12(xμ)2}

      当中,E(x)=μ, var(x)=σ2.
    2. 多变量正态分布
      N(X|μ,Σ)=1(2π)D21|Σ|12exp{12(Xμ)TΣ1(Xμ)}

      当中,E(X)=μvar(X)=ΣΣn阶对称正定矩阵。 而Σ是对称矩阵,所以存在正交矩阵T(T=T1),使得TΣT=Λ。 当中Λ是对角阵。其对角线上的元素λ1,λ2,...,λnΣ的特征根。由于Σ是正定的,故λ1,λ2,...,λn都是正的。
    3. 高斯条件分布
      对于联合分布N(X|μ,Σ), Λ=Σ1,当中
      X=(xaxb),μ=(μaμb)
      Σ=(ΣaaΣbaΣabΣbb),Λ=(ΛaaΛbaΛabΛbb)
      则条件分布的概率为
      p(Xa|Xb)=N(X|μa|b,Λ1aa)

      μa|b=μaΛ1aaΛab(XbXa)

      边际分布的概率为
      p(Xa)=N(Xa|μa,Σaa)
    4. X服从N(μ,Σ)。则Y=AX+b服从N(Aμ+b,AΣA)
    5. 混合高斯分布
      高斯分布是一个单峰模型,其对于多峰模型的描写叙述显然是不够的,所以引入了混合高斯分布。即多个高斯分布的凸组合
      p(x)=Σk=1KπkN(x|μk,Σk)

      当中,Σk=1Kπk=10πk1

    Γ分布

    • Γ函数
      是阶乘在实数和复数上的扩展
      Γ(t)=0xt1exdx
      t为正整数时
      Γ(t)=(t1)!
    • Γ函数性质
      Γ(t+1)=tΓ(t)
      Γ(1)=1
      Γ(12)=π
    • Γ分布密度函数
      f(x)=λαxα1Γ(α)eλx

      x服从參数为α,λΓ分布,记为x Γ(α,λ)
    • Γ分布性质
      Gamma分布中的參数α称为形状參数(shape parameter),λ称为尺度參数(scale parameter)。在实验中。它模拟如果随机变量X为 等到第α件事发生所需之等候时间,α,λ是两个分布调整參量。
      E(x)=αλ
      σ2(x)=αλ2

    Beta分布

    • Beta函数
      B(p,q)=Γ(p)Γ(q)Γ(p+q)=10xp1(1x)q1dx
    • Beta分布密度函数
      Beta(μ|p,q)=Γ(p+q)Γ(p)Γ(q)μp1(1μ)q1=1B(p,q)μp1(1μ)q1

      其均值和方差例如以下所看到的:
      E(μ)=pp+q
      var(μ)=pq(p+q)2(p+q+1)

      Beta分布是区间[0,1]上的单峰分布,所以能够在某些情况下对数据进行非常好的描写叙述。比方,其可作为伯努利分布的贝叶斯參数预计时的先验分布。

    Dirichlet分布

    • 定义
      Dir(μ|α)=Γ(α0)Γ(α1)...Γ(αk)k=1Kμαk1k
      当中α0=Σk=1Kαk
    • Beta分布与Dirichlet分布的关系
      • Beta分布相应二项分布。Dirichlet相应多项分布
      • Beta分布是Dirichlet分布的特例

    指数族分布

    • 定义
      x的概率密度能够表示为
      p(x|η)=h(x)g(η)exp{ηTu(x)}
      则称此分布为指数族分布。当中。η称为自然參数。u(x)x的函数,g(η)能够看作是归一化概率密度的參数。即
      g(η)h(x)exp{ηTu(x)}=1
    • 实例
      二项分布、多项分布、指数分布、Gamma分布等

  • 相关阅读:
    Python实现网络多人聊天室
    C实现string字符串
    C getchar()
    C++ 数组遍历的两种方式
    Java 发红包
    Java递归实现阶乘
    Go defer语句
    bash shell——sum
    C——letterCounter
    数据结构——链队列(linked queue)
  • 原文地址:https://www.cnblogs.com/tlnshuju/p/7101429.html
Copyright © 2020-2023  润新知