参数估计
假设随机变量服从某种概率分布 \(p(x)\),但这种分布的参数\( \theta\)是未知的,比如假设 \(p(x)\) 服从一维正态分布,\(p(x) \sim N(\mu,\sigma^2)\),其中\(\mu\)和\(\sigma\)是未知的。需要根据一组服从此概率分布的样本来估计出概率分布的参数,这就是参数估计。对于已知概率密度形式的问题,有最大似然估计,最大后验估计以及贝叶斯估计三种方法。
最大似然估计(MLE)
最大似然思想
最大似然估计为样本构造一个似然函数,通过让似然函数最大化,求解出参数\(\theta\)。其直观解释是,寻求参数的值使得给定的样本集出现的概率(或概率密度函数值)最大。最大似然估计认为使得观测数据(样本值)出现概率最大的参数为最优参数。这一方法体现了“存在的就是合理的”这一朴素的哲学思想:既然这组样本出现了,那么它们出现的概率理应是最大化的。
最大似然数学表达
假设样本服从的概率分布为 \(p(x;\theta)\),其中 \(x\) 为随机变量,\(\theta\) 为要估计的参数。给定一组样本 \(x_{i},i=1,\cdot \cdot \cdot l\),它们都服从这种分布且相互独立。因此,它们的联合概率为
这个联合概率也称为似然函数。其中\(x_i\)是已知的,\(\theta\)未知。似然函数是优化\(\theta\)的函数。
目标是让\(L(\theta)\)最大化,因为这组样本既然出现了,那么它们出现的概率理应是最大的。即:
将似然函数取对数得到对数似然函数:
对数函数为增函数,因此最大化似然函数等价于最大化对数似然函数:
高斯分布的最大似然估计
对于正态分布 \(N(\mu,\sigma^2)\),有样本集 \(x_1,\cdot \cdot \cdot x_n\),该样本集的似然函数:
对数似然函数为:
对\(\mu\)和\(\sigma\)求偏导,并令其等于0:
解得:
对于多维高斯分布\(N(\mu,\Sigma)\),有类似的结果:
最大后验估计(MAP)
最大后验估计思想
最大后验估计则将参数 \(\theta\) 看做随机变量,假设它服从某种概率分布,通过最大化后验概率 \(p(\theta|x)\) 确定其值,其核心思想是使得在样本出现的条件下参数的后验概率最大化。求解时需要假设参数 \(\theta\) 服从某种分布(称为先验分布)。前面的最大似然估计的核心思想是既然这组样本出现了,那么它们出现的概率理应是最大化的。
假设参数服从 \(p(\theta)\) 。根据贝叶斯公式:
其中 \(p(x|\theta)\) 是给定参数值时样本的概率分布,就是 \(x\) 的概率密度函数或概率质量函数,可以根据样本的值 \(x\) 进行计算。因此,最大化该后验概率等价于:
最大后验概率估计与最大似然估计的区别在于目标函数中多了 \(p(x)\) 这一项,如果 \(\theta\) 服从均匀分布,该项为常数,最大后验概率估计与最大似然估计一致。
高斯分布的最大后验估计
假设有正态分布 \(N(\mu,\sigma_v^2)\) ,其均值 \(\mu\) 未知,方差已知。有一组采样来自该分布的独立同分布样布 \(x_1,\cdots,x_n\) 。假设参数 \(\mu\) 服从正态分布 \(N(\mu_0,\sigma_m^2)\) 。最大后验概率估计的目标函数为:
贝叶斯估计
贝叶斯估计与最大后验概率估计的思想类似,区别在于不求出参数的具体值,而是求出参数所服从的概率分布。参数 \(\theta\) 的后验概率分布为
\(p(\theta)\) 为参数的先验分布,\(P(x|\theta)\) 为给定参数时样本的概率分布。这里得到的是参数的概率分布,通常取其数学期望作为参数的估计值。即参数的估计值为