1.概率密度函数
在在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。当概率密度函数存在的时候,分布函数是概率密度函数的积分。概率密度函数一般以小写“pdf”(Probability Density Function)标记。
常见的概率密度函数有均匀分布,二值分布,高斯分布等。
2.概率密度函数估计
现实世界中,我们可能需要这样的应用,基于某些观察值,我们想推出某件事的整体概率的分布,概率的分布又由概率密度函数决定的。概率密度函数估计就是这样的一种思想,有样本推出整体的规律。具体可以分为两类
2.1 参数估计方法:预先假设每一个类别的概率密度函数的形式已知,而具体的参数未知;
最大似然估计(MLE, Maximum Likelihood Estimation);
贝叶斯估计(Bayesian Estimation)。
2.2非参数估计方法。
3.Parzen窗口密度估计
Parzen窗口密度估计是一种基本数据插值技术,给定一些随机样本x,PWDE估计由这些样本驱动的PDF。PWDE叠加放置于观察值上核函数,基于这样的方式,每个观察值对于估计PDF都有贡献。利用PWDE来估计PDF的公式如下,P(x)是观察值对窗口贡献的和。
其中,是窗口的宽度或者是核函数的带宽参数。,核函数是单锋的,高斯密度函数核是经常用来PDF估计的。如果使用高斯核那么,上式就变为
。
参考资料:http://zh.wikipedia.org/wiki/%E6%A9%9F%E7%8E%87%E5%AF%86%E5%BA%A6%E5%87%BD%E6%95%B8;
https://www.cs.utah.edu/~suyash/Dissertation_html/node11.html?from=searchPlus&SearchPlusIndex=-1