听林轩田老师的《机器学习技法》,Lecture 7讲到model的blending。
理解了一个之前一直模棱两可的概念:bootstrap.
先说一下什么是blending。在机器学习中,我们可能可以很容易地得到一些简单的model,比如对于二分类问题,我们可以有一系列简单的model做分类,但是这些model的效果并不一定好。
一个做法就是我们对这些简单的model进行一个voting,把voting的结果作为最终的strong的model的结果。
vote的过程,可以是每个model的权值都相同,即每个model都有一票,也可以是定义一系列的alpha,让每个model有不同的票数。
一个很容易想到的问题就是,这些简单的,或者说是weak的model从哪里来?
一种方式是model的类型就不一样,比如可以训练一个svm,一个linear regression,一个logistic regression,这三个model本身就组成了这些简单的model;
一种方式是同一种model,选取不同的参数来生成简单的model,如调整svm的参数C就可以得到一系列的svm;
第三种方式,就是bootstrap,这种方式是通过使用不同的训练集合来得到一系列的model,训练集合的获取方式是这样的:从原来的训练集合中有放回地进行抽样,用每次得到的不同的样本进行训练,从而就得到了若干个model。