1. 基础知识
1.1 条件概率
一个事件概率依赖于另外一个事件(已发生)的度量。
(P(B|A))的意义是在A发生的情况下B事件发生的概率。这就是条件概率。
(P(AB) = P(A) imes P(B|A)) 代表的意义是,AB事件同时发生的概率等于事件A发生的概率乘以在A发生条件下B事件发生的概率。
[P(B|A)=frac{P(AB)}{P(A)}
]
事件序列发生且彼此相互依赖,所以才有条件概率,这是前提。如果A, B两个事件没有相互依赖关系,那么就是独立事件。在独立事件的情况下,两个事件不会相互影响对方。
[P(B|A)=P(B) if A,B互为独立事件
]
1.2 全概率定律
事件A1,A2,A3,...... A是相互排斥的,不能同时发生。若事件A1,A2,…构成一个完备事件组且都有正概率,则对任意一个事件B,有如下公式成立:
[P(B) = P(BA_1)+P(BA_2)+...+P(BA_n) \ =P(B|A_1)P(A_1) + P(B|A_2)P(A_2) + ... + P(B|A_n)P(A_n)
]
1.3 贝叶斯定理
graph TB
start-->A
A-->B
B-->A
A-->start
最简单形式:
后验概率 = 修正因子 x 先验概率
[P(A|B)=frac{P(B|A)}{P(B)} imes P(A)
]
graph TB
start-->A1
start-->A2
start-->A3
start-->An
A1-->B
A2-->B
A3-->B
An-->B
[P(A_i|B) = frac{P(B|A_i) imes P(A_i)}{sum_1^{n}P(A_i) imes P(B|A_i)}
]
1.4 极大似然估计
极大似然估计是概率论中一个很常用的估计方法,在机器学习中的逻辑回归中就是基于它计算的损失函数
极大似然估计是基于一个理论:概率最大的事件,最可能发生
极大似然估计(maximum likelihood estimation, MLE),通俗的说就是 —— 最像估计法(最可能估计法)
极大似然原理与数学表示: 有n个实验结果,(A_i)到(A_n),如果(A_j)发生了,则意味着(A_j)发生的概率最大。即,一次试验就发生的事件,这个事件本身发生概率最大