紧接上期,有的时候问题会稍微复杂一点,
要将三角和圆圈分开,一条线无法做到,需要两条直线。所以分界面可以是简单的一条直线,也可以是曲线或者多条曲线围成的区域。其实它就是对空间进行了一个划分,因为我们把每一个分析对象进行了量化,变换成为了N维空间中的点,对这些点进行划分就是分类。
下图中红蓝点分别代表两种对象,我们假设为小猫小狗,图中有两个分类器,也就是两个分类面,
一种是绿色曲线,一种是黑色曲线。绿色曲线正确的区分了所有对象,所有蓝点都在上方,所有红点都在下方,没有分错任何一个点,黑色线则有分错的点,然而,我们需要的是黑色的线,虽然它有分错的点,但它是平滑的,绿色的线曲里拐弯,实际上是在跟着数据走,我们称之为过度拟合(overfitting),类似于一个学生死记硬背,将每一个例题都生硬的记忆,没有形成一个合理的分界面,最终也无法解出真题。在数据挖掘中,我们会选择黑色的分界面,即使它会犯一些错误。
做分类的时候,我们会将数据分为两部分,一部分用来训练,叫做训练集(Training Set),用来生成模型(Generated Models),另一部分用来测试,叫做测试集(Test Set),用来评估模型(evaluation),如果模型准确率不高,则要再次生成模型。
如果用同一个数据集进行训练与测试,就相当于用例题进行考试,即使得了满分,也没有意义,这是初学者容易犯的错误,需要特别注意。