• 数据挖掘【5】分类问题(二)


    紧接上期,有的时候问题会稍微复杂一点,

    要将三角和圆圈分开,一条线无法做到,需要两条直线。所以分界面可以是简单的一条直线,也可以是曲线或者多条曲线围成的区域。其实它就是对空间进行了一个划分,因为我们把每一个分析对象进行了量化,变换成为了N维空间中的点,对这些点进行划分就是分类。

    下图中红蓝点分别代表两种对象,我们假设为小猫小狗,图中有两个分类器,也就是两个分类面,

    一种是绿色曲线,一种是黑色曲线。绿色曲线正确的区分了所有对象,所有蓝点都在上方,所有红点都在下方,没有分错任何一个点,黑色线则有分错的点,然而,我们需要的是黑色的线,虽然它有分错的点,但它是平滑的,绿色的线曲里拐弯,实际上是在跟着数据走,我们称之为过度拟合(overfitting),类似于一个学生死记硬背,将每一个例题都生硬的记忆,没有形成一个合理的分界面,最终也无法解出真题。在数据挖掘中,我们会选择黑色的分界面,即使它会犯一些错误。

    做分类的时候,我们会将数据分为两部分,一部分用来训练,叫做训练集(Training Set),用来生成模型(Generated Models),另一部分用来测试,叫做测试集(Test Set),用来评估模型(evaluation),如果模型准确率不高,则要再次生成模型。

    如果用同一个数据集进行训练与测试,就相当于用例题进行考试,即使得了满分,也没有意义,这是初学者容易犯的错误,需要特别注意。

    官网:http://www.lenbor.com
  • 相关阅读:
    mysql sql的分类、运算符、常用的数据类型
    mysql 03章_完整性、约束
    java 在数组{1,2,3,4,6,7,8,9,10}中插入一个数5,使其插入完成后仍然有序
    mysql 数据库基本命令
    java 迷你DVD管理器
    15.Request对象的主要方法有哪些?
    get和post的区别?
    什么情况下调用doGet()和doPost()?
    spring的作用
    分享Bromon的blog上对IoC与DI浅显易懂的讲解
  • 原文地址:https://www.cnblogs.com/lenbor/p/13324267.html
Copyright © 2020-2023  润新知