• 数据挖掘【3】分类问题(一)


    本期向大家介绍数据挖掘中具体的技术应用,算法中的分类问题(Classification)。

    什么叫分类问题?你给我一堆人过来,每个人有一些属性、标签,身高、体重、年龄诸如此类的属性,然后你让我预测什么呢,比如说好人还是坏人,我建一个模型,能做这件事情,这就叫做分类。

    我为什么能给他打标签,好人还是坏人呢?因为我以前已经见过一批打过标签的人,已经知道了好人长什么样,坏人长什么样,所以现在再来一个人,就可以根据以前学到的这些知识,判断新来的这个人是好是坏。

    给一些训练集,训练出一个模型,使得以后再来一个不在训练集内的未知的对象时,可以预测它是什么样子的,它是红的还是白的,是猫还是狗,所有这样的东西,是可以去训练,可以去预测的。

    分类中有很多的算法,包括决策树啊(Decision Trees)、KNN近邻算法(K-Nearest Neighbours)、神经网络(Neural Networks)、支持向量机(Support Vector Machines),这些我们以后都会慢慢去介绍。

    分类的应用也非常的广,医学上的诊断,这个人有病没病,根据他的体检报告进行分析,这就是一种分类问题,有病没病,或者说肿瘤是恶性良性,都是可以做一种判断的,其他比如客户,他会不会流失,移动调到联通,联通跳到电信,这些都是可以预测的。

    分类(Classification)听上去好像有一些玄乎,怎么就可以去建一个模型,然后去预测一些东西,其实说白了,它就是分界线(Boundaries)。

     

     我们有一个二维的问题,横坐标是一个人的收入,纵坐标是一个人的存款,现在这个人他要去贷款,那银行内部是有一套模型用来评估这个贷款的风险,如上图所示,这个模型会划出一条线,将高收入高存款的客户划入低风险区,其他诸如高收入低存款的月光族,以及高存款但是流水不足的客户划入高风险区。

    未完待续。

    官网:http://www.lenbor.com
  • 相关阅读:
    Git的初步学习
    Git的初步学习
    微信小程序我的界面
    微信小程序我的界面
    Day2:html和css
    Day2:html和css
    Day1:html和css
    Day1:html和css
    Java之JDK7的新语法探索
    Java之JDK7的新语法探索
  • 原文地址:https://www.cnblogs.com/lenbor/p/13210950.html
Copyright © 2020-2023  润新知