• NLP——LDA(Latent Dirichlet Allocation-潜在狄利克雷分布)


    一、首先是贝叶斯  

    参考机器学习(一) —— 浅谈贝叶斯和MCMC

    其中 π指的是参数的概率分布, π(θ)π(θ) 指的是先验概率, π(θ|x) 指的是后验概率,f(x|θ) 指的是我们观测到的样本的分布,也就是似然函数(likelihood),记住 竖线 | 左边的才是我们需要的。其中积分求的区间 Θ 指的是参数 θθ 所有可能取到的值的域,所以可以看出后验概率 π(θ|x) 是在知道 xx 的前提下在 Θ 域内的一个关于 θ 的概率密度分布,每一个 θ 都有一个对应的可能性(也就是概率)。

    其中介绍了贝叶斯思想、先验概率、后验概率、

    似然函数 f(x|θ)似然函数听起来很陌生,其实就是我们在概率论当中看到的各种概率分布 f(x),那为什么后面要加个参数 |θ 呢?我们知道,掷硬币这个事件是服从伯努利分布的 Ber(p) , n次的伯努利实验就是我们熟知的二项分布 Bin(n,p), 这里的p就是一个参数,原来我们在做实验之前,这个参数就已经存在了(可以理解为上帝已经定好了),我们抽样出很多的样本 x是为了找出这个参数。

    其实我们观测到样本 x的分布是在以某个参数 θ 为前提下得出来的,所以我们记为 f(x|θ),只是我们并不知道这个参数是多少。

    后验分布:以前我们想知道一个参数,要通过大量的观测值才能得出,而且是只能得出一个参数值。而现在运用了贝叶斯统计思想,这个后验概率分布 π(θ|x)π(θ|x) 其实是一系列参数值 θθ 的概率分布,再说简单点就是我们得到了许多个参数 θθ 及其对应的可能性,我们只需要从中选取我们想要的值就可以了

    先验分布:先验分布就是你在取得实验观测值以前对一个参数概率分布的 主观判断,这也就是为什么贝叶斯统计学一直不被认可的原因。抛质地均匀的硬币经验告诉我们正面的概率是50%,但如果我告诉你这个硬币的材质是不均匀的,那正面的可能性是多少呢?这就让人犯糊涂了,我们想有主观判断也无从下手,于是我们就想说那就先认为 0 到1 之间每一种的可能性都是相同的吧,也就是设置成0~1之间的均匀分布 Uni(0,1) 作为先验分布吧,这就是贝叶斯统计学当中的 无信息先验(noninformative prior)

    共轭先验:

    有了如上的贝叶斯定理,对于贝叶斯派而言,有如下的思考方式:

    先验分布+样本信息后验分布

    上述的形式定义是贝叶斯派的思维方式,人们对于事物都会存在着最初的认识(先验分布),随着收集到越来越多的样本信息,新观察到的样本信息会不断修正人们对事物的最初的认识,最终得到对事物较为正确的认识(后验分布)。若这样的后验概率P(θx)和先验概率P(x)满足同样的分布,那么先验分布和后验分布被称为共轭分布

    共轭先验的意义:如果你知道了一个观测样本的似然函数是二项分布的,那我们把先验分布直接设为Beta(a,b) ,于是我们就 不用计算复杂的含有积分的贝叶斯公式 便可得到后验分布 Beta(x+a,nx+b) 了!!!只需要记住试验次数n,和试验成功事件次数x就可以了

     二、文本建模  (被碾压)

    参考:

    简单易学的机器学习算法——Latent Dirichlet Allocation(理论篇)

    (其中引用的文章也很有价值,包括:通俗理解LDA主题模型。。。)

  • 相关阅读:
    tcpdump命令
    浅谈  curl命令
    MongoDB下rs.status()命令
    Device mapper存储方式
    top命令
    cat命令汇总整理
    centos7搭建nginx日志
    CentOS7 防火墙(firewall)的操作命令(转)
    服务器的硬件组成
    shell随机生成10个文件
  • 原文地址:https://www.cnblogs.com/shangshuai/p/7638439.html
Copyright © 2020-2023  润新知