GSDMM是一种基于狄利克雷多项式混合模型的收缩型吉布斯采样算法(a collapsed Gibbs Sampling algorithm for the Dirichlet Multinomial Mixture model)的简称,它是发表在2014年KDD上的论文《A Dirichlet Multinomial Mixture Model-based Approach for Short Text Clustering》的数学模型。
GSDMM主要用于短文本聚类,短文本聚类是将大量的短文本(例如微博、评论等)根据计算某种相似度进行聚集,最终划分到几个类中的过程。GSDMM主要具备以下优点:
1. 可以自动推断聚类的个数,并且可以快速地收敛;
2. 可以在完备性和一致性之间保持平衡;
3.可以很好的处理稀疏、高纬度的短文本,可以得到每一类的代表词汇;
4. 较其它的聚类算法,在性能上表现更为突出
《A Dirichlet Multinomial Mixture Model-based Approach for Short Text Clustering》中应用狄利克雷多项式混合模型(DMM)于短文本聚类中,可以很好地处理短文本的稀疏和高纬度的问题,并且可以得到每个类的代表词汇。再对DMM采用收缩型吉布斯采样算法,对于短文本聚类可以得到很好的表现。同时,GSDMM可以很好地平衡聚类结果的完备性和一致性从而自动推断类的个数且可以快速地收敛。
方法
用Movie Group Process(MGP) 来类比,电影讨论课程的教授要将学生分为不同的组,并且希望在同一个组的学生看过同一部电影,因此他们有更多的东西可以讨论。教授要求学生在几分钟之内写下他们看过的电影。(由于时间限制,写下的电影列表不会太长,更多可能是他们近期观看或最喜欢的电影)。学生看过的电影表示要分类的文档,教授需要找到一个方法将学生根据其电影列表分为不同的组。相同的组的学生具有相似的电影列表,不同的组的学生的电影列表不相同。
GSDMM短文本聚类聚类
1. 假设在初始阶段,我们将文档分类的个数指定为K, 根据文献当中表示,在实验中,这个K值通常比实际类的个数要大。
2. 对于每一篇文档,用d表示,对d进行分类的概率服从多项式分布,比如将d分类到标签为z的族,更新该族的文档数、字数和每个字的出现次数的统计结果,也就是在原来的基础 上,文档数+1,字数加上文档d的字数,该类每个字的统计结果加上d对应字的统计信息。
3. 在分类完成后,对下面操作进行迭代:
对于每篇文档,同样用d表示,记录它所分类的标签z1, 在该类z1中剔除文档d,更新z1的相关参数 那么就该重新为d指定一个类了,此时分类的概率服从以标签z1剔除d和d为先 验条件的条件概率分布。这其实就是一个吉布斯采样的过程,重新指定类的标签z2, 更新相关的参数。
用通熟语言怎么讲共轭先验?狄利克雷分布?多项式分布?吉布斯采样?
先验概率:事情还没有发生,要求这件事发生的可能性的大小
后验概率:事情已经发生,要求这件事发生的原因是由某一个因素引起的可能性的大小。
共轭先验: 如果某个随机变量的后验概率和其先验概率属于同一分布族,那么后验概率和先验概率互为共轭分布。
贝塔分布:beta分布式模拟取值范围是从0到1时的模型的参数的分布。用抛硬币举例,比如抛出头的概率的为x, 则抛出字的概率为1-x
比如抛了5次,其中两次人头,三次文字,概率值为 p = x^2*(1-x)^3, 对x 的估计值服从beta分布。
狄利克雷分布:狄利克雷是贝塔分布的推广,是多项分布的共轭分布,也就是它与多项分布具有相同的分布函数
二项分布:n重伯努利试验成功次数的离散概率分布
多项分布:为二项分布的推广
吉布斯采样:每一个涉及到将一个变量的值替换为以剩余变量的值为条件,从这个概率分布中抽取的那个变量的值。比如我们采样的概率分布p(z) = p(z1, z2, z3,…,zm), 因此我们将zi替换为从概率分布p(zi|z\i)中抽取的值,其中zi表示 z的第i个元素,那么z\i表示从z1, z2,…, zm中去掉zi这一项。