摘要:随机森林与决策树的一个显著的不同点就是它不会产生过度拟合。它的理论依据就是大数定律。
很熟悉的一个名词:大数定律,记得本科的概率论就有学,忘了差不多了,下面先复习下。
大量试验说明,随机事件A的频率R(A),当重复试验的次数n增大时,总呈现出稳定性,稳定在某一个常数的附件,意指数量越多,其平均值就越趋近与期望值。
一:大数定律回顾
切比雪夫定理:
设 a1,a2,a3,…,an 为相互独立的随机变量,其数学期望为:E(ai)=, 及方差D(ai)=
则序列收敛于u,即在定理条件下,当n无限变大时,n个随机变量的算术平均将趋于一个常数。
辛钦定理(切比雪夫的特殊情况):
设a1,a2,…an,…为服从同一分布且相互独立的随机变量,其数学期望为:,则对任意正数ε>0,下式成立:
表明,对于独立同分布的随机变量a1,a2,a3…an…,对于任意的ε>0,只要n充分大,事件实际上几乎是必要发生的。
伯努利大数定理(切比雪夫的特殊情况):
设μ是n次独立试验中事件A发生的次数,p是事件A在每次试验中发生的概率,则对于任意的正数ε,有
伯努力大数定理说明,当试验次数n很大的时候,事件A发生的频率与概率有较大判别的可能性比较小,即:
用数学式表现出了频率的稳定性。
二:随机森林中的大数定律的应用
首先回顾下随机森林的定义:
随机森林是一个分类器,它由一些列的单株分类器组成的,其中的是独立同分布的随机变量。在输入X后,每一棵决策树只投一票给它认为最合适的分类标签,最后选择投票最多的那个分类标签作为X的分类。
之所以引入随机变量,是为了控制每棵树的生长,通常针对于第K棵决策树引进随机变量,它与前面的k-1个随机变量是独立同分布的,利用训练集和来生成第k棵树,也就等价于生成一个分类器,其中的X是一个输入向量。
给定一系列的分类器,然后随机的选择一些训练样本,设其中X为样本向量,Y为正确分类的分类标签向量。
则定义边际函数:
其中I(.)是示性函数,av(.)表示取平均值,边际函数表示了在正确分类Y之下X的得票数目超过其它错误分类的最大得票数目的程度。
该值越大表明分类的置信度越高。
泛化误差 公式为:
其中X,Y表示概率的定义空间。
根据大数定律中的辛钦定理,当决策树的数目增加时,对于所有的序列和PE都会收敛到:
对应于大数定律里的频率收敛于概率。
这一结果解释了为什么随机森林不会随着决策树的增加而产生过度拟合,并且有一个有限的泛化误差值。