机器学习 - 1 - 数学基础
本系列博客为本人课程笔记。
统计是已知数据,推模型和参数。
最大似然估计
-
似然函数
( heta) 是概率密度的一个确定性的参数集(分布参数,例如正态分布中的 (mu) 或 (sigma) ), (P(X^{(N)};θ)) 是条件概率密度(P(x^{(N)}|θ))。
如果各个(x_j(j = 1,2,3...N))是独立抽取的,则进一步有:[P(x^{(N)}| heta )=prod_{j=1}^{N}P(x_j| heta) ] -
若似然函数可微,求微分方程组的解,或等价求对数似然方程组的解,作为极值的必要条件,求得似然函数的最大值,进一步求得 ( heta)。
-
最大似然估计是将带估计的参数看作是确定的量,但是取值未知,它只考虑某个模型能产生某个给定观察序列的概率,而未考虑该模型本身的概率。(我知道这个序列应该是服从xx分布的)
最大后验概率估计
-
贝叶斯公式:
[P(B_i|A) = frac{P(B_i)P(A|B_i)}{sum_{j=i}^{n}P(B_j)P(A|B_j)} ]贝叶斯公式给出了“结果”事件 A 已经发生的条件下,“原因”事件 B 的条件概率,对结果的任何观测都将增加我们对原因事件B的真正分布的知识,即:
[后验概率 = frac{先验概率 imes似然函数}{证据因子} ]贝叶斯公式就是在描述,你有多大把握能相信一件证据,即原因B
-
最大似然估计求参数 ( heta) ,使似然函数 (P(x_0| heta)) 最大。最大后验概率估计则是求 ( heta) ,使 (P( heta)P(x_0| heta)) 最大,由于证据因子已经确定,所以此时求得最大的后验概率,即最大化某个原因。
-
最大后验估计的融入了要估计量的先验分布在其中,可看做是规则化的最大似然估计。其中加入了模型参数本身的概率分布,并允许我们把先验知识加入到估计模型中。
本节参考: