P68
In Bayesian probability theory, if the posterior distributions p(θ|x) are in the same family as the prior probability distributionp(θ), the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood. For example, the Gaussian family is conjugate to itself (or self-conjugate) with respect to a Gaussian likelihood function: if the likelihood function is Gaussian, choosing a Gaussian prior over the mean will ensure that the posterior distribution is also Gaussian.
The exponential families include many of the most common distributions, including the normal, exponential, gamma, chi-squared, beta, Dirichlet, Bernoulli, binomial,multinomial, Poisson, Wishart, Inverse Wishart and many others.
P73页关于那个Beta分布的东东哪里看到过,想不起来了,是《统计学习完全教程》里?下次找找看。
2.2 Multinomial Variables
Multinomial 说白了就是多选一分布。比如随机变量X有三种取值x1,x2,x3,那么用一个三维向量表示Multinomial 的取值就是{1,0,0},{0,1,0},{0,0,1}分别代表选中x1,x2,x3,即必须选中一个,同时只能选一个这样的意思。
如果用μk表示xk=1时的概率,那么对于随机变量x的取值的概率分布可以表示为:
其实这个式子的意思就是当K取值k的时候,只有xk是1,其他都是0,所以这个p(x|μ)的值就是μk的值而已,因为一个数的0次方是1,所以对于其他xi(i≠k)的那部分μi全部都乘以了一个1而已。搞了这么一个玄乎的式子,应该是为了数学表示全面点,事实上直接理解就是p(x|μ) = μk。
那么对于Multinomial 的极大似然估计其实可想而知,就是数数xk的个数然后取占整个集合的比例作为概率了。式(2.31)给了数学上的likelihood的式子,但是那个什么拉格朗日乘子λ我已经没啥概念了,这里记着点以后看。