机器学习,从本质上讲,就是一种经验的总结。
例如,“山雨欲来风满楼”,山里面下大雨之前会刮大风,就是一种经验的总结。当然,这也不是100%准确的事情,只是从概率上看,刮风之后下雨的可能性是最大的。
机器学习模型,我们追求的也就是,这个模型看上去是最靠谱的,最接近我们观察到的事实的。换句话说,我们通过观察到的事件,来确定模型,使得这个模型在概率上说,是最有可能的,最符合我们观察到的事件的。
不均匀硬币
现在,有一枚硬币,由于加工不均匀,每次抛硬币时,其正面朝上的概率为 X ,现在,我们怎么才能知道这个X是多少呢?最简单的办法是抛10次硬币,如果6次正面朝上,我们很容易脱口而出,正面朝上的概率是3/5.
为什么我们可以脱口而出,不假思索的说是3/5呢?理由很简单啊,抛10次,6次向上,正面朝上的概率为3/5最合理啊,这种可能性最高啊。
由于是概率,所以,这个估计或多或少都存在一个运气的问题,可能这个硬币朝上的概率只有1/10,但是抛硬币的人特别妖,就是能够10次里面抛出6次正面朝上。
- “抛10次硬币,6次正面向上“ 和 ”硬币正面朝上的概率为3/5”
- “抛10次硬币,6次正面向上“ 和 ”硬币正面朝上的概率为1/10”
由于抛硬币问题简单,而且上面两个判断相差很大,所以我们很容易就知道前者可能性最大,后者可能性较小。如果问题改成
- 山雨欲来风满楼
- 雨后出现彩虹
哪个比较靠谱,这个就非常难了吧。所以,我们还需要一套理论去量化靠谱程度,可能性到底有多高的程度。
猎人
MLE maximum likelihood estimation的最本质的思想就是:发生某事件X,我们非常关心导致这件事情发生的原因或者细节A(A有多种可能性)。但对于A,我们无法溯源去回放事件,去验证到底是哪个。于是我们企图找到某一个A(即估计值Ahat),使得【基于Ahat,当下我们观察到的现实——X的发生——具有最大的发生的可能性】,这样的想法得到的Ahat就是极大似然估计。一个小故事:有一个业余的猎人新手和一名资深猎人,他们一人一把枪地跑去打猎,砰地一声枪响,一头小鹿应声倒地,这时候问你:更可能的情况是猎人打中了还是新手打中了?在这个故事里,【发生的某事件X】是小鹿被打中,【我们关心的事情A】是谁打中了小鹿,【A的可能的情况】有猎人打中或新手打中,【极大似然估计A】是猎人打中。
作者:Vincent
链接:https://www.zhihu.com/question/24124998/answer/46745176
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
概率分布
在数学上有很多概率分布,这里就不再啰嗦了,可以参看下面的文章
http://blog.csdn.net/sunmenggmail/article/details/17138651
二项分布的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔n次硬币,k次为正面的概率即为一个二项分布概率。
硬币正面向上概率是0.6,抛10次,6次朝上的概率是 0.2508
硬币正面向上概率是0.1,抛10次,6次朝上的概率是 0.0001
(顺便计算一下,硬币正面向上概率是0.1,抛10次,1次朝上的概率是 0.3874)
无论硬币正面向上概率是多少,如果将抛10次里面1次朝上的概率,2次朝上的概率,一直累加到10次朝上的概率,其总和应该为1.
- 我们看到10次里面6次朝上的结果,硬币正面向上概率为0.6和0.1之间相差上千倍。
- ”硬币正面向上概率是0.1,抛10次,1次朝上“ 比 ”硬币正面向上概率是0.6,抛10次,6次朝上“ 更加靠谱
概率分布就是为了量化靠谱程度的数学工具。通过这些工具,我们可以计算出一个观察结果(抛10次硬币,6次正面向上)和一个带参数(正面朝上概率)的模型之间,从概率上讲,相似(似然)程度。