bootstrap方法是一种重采样技术,用于通过抽样数据集来估计总体统计数据。是一种面向应用的、基于大量计算的统计思维——模拟抽样统计推断。
它可以用来估计统计数据,例如平均值或标准差。在应用机器学习中,当对不包含在训练数据中的数据进行预测时,它用于评估机器学习模型的技能。
评估机器学习模型技能结果特的点是,估计方法可以用置信区间来表示,这是其他方法不容易得到的,比如交叉验证。
Bootstrap法是以原始数据为基础的模拟抽样统计推断法,可用于研究一组数据的某统计量的分布特征,特别适用于那些难以用常规方法导出对参数的区间估计、假设检验等问题。其基本思想是:在原始数据的范围内作有放回的再抽样, 样本容量仍为n,原始数据中每个观察单位每次被抽到的概率相等, 为1/n , 所得样本称为Bootstrap样本。于是可得到参数θ的一个估计值θ^(b),这样重复若干次,记为B 。
Bootstrap的意思是靴带,来自短语:“pull oneself up by one′s bootstrap”,18世纪德国文学家拉斯伯(Rudolf Erich Raspe)的小说《巴龙历险记(或译为终极天将)》(Adventures of Baron Munchausen) 记述道:“巴龙掉到湖里沉到湖底,在他绝望的时候,他用自己靴子上的带子把自己拉了上来。”现意指不借助别人的力量,凭自己的努力,终于获得成功。在这里“bootstrap”法是指用原样本自身的数据抽样得出新的样本及统计量,根据其意现在普遍将其译为“自助法”。