本期向大家介绍数据挖掘中具体的技术应用,算法中的分类问题(Classification)。
什么叫分类问题?你给我一堆人过来,每个人有一些属性、标签,身高、体重、年龄诸如此类的属性,然后你让我预测什么呢,比如说好人还是坏人,我建一个模型,能做这件事情,这就叫做分类。
我为什么能给他打标签,好人还是坏人呢?因为我以前已经见过一批打过标签的人,已经知道了好人长什么样,坏人长什么样,所以现在再来一个人,就可以根据以前学到的这些知识,判断新来的这个人是好是坏。
给一些训练集,训练出一个模型,使得以后再来一个不在训练集内的未知的对象时,可以预测它是什么样子的,它是红的还是白的,是猫还是狗,所有这样的东西,是可以去训练,可以去预测的。
分类中有很多的算法,包括决策树啊(Decision Trees)、KNN近邻算法(K-Nearest Neighbours)、神经网络(Neural Networks)、支持向量机(Support Vector Machines),这些我们以后都会慢慢去介绍。
分类的应用也非常的广,医学上的诊断,这个人有病没病,根据他的体检报告进行分析,这就是一种分类问题,有病没病,或者说肿瘤是恶性良性,都是可以做一种判断的,其他比如客户,他会不会流失,移动调到联通,联通跳到电信,这些都是可以预测的。
分类(Classification)听上去好像有一些玄乎,怎么就可以去建一个模型,然后去预测一些东西,其实说白了,它就是分界线(Boundaries)。
我们有一个二维的问题,横坐标是一个人的收入,纵坐标是一个人的存款,现在这个人他要去贷款,那银行内部是有一套模型用来评估这个贷款的风险,如上图所示,这个模型会划出一条线,将高收入高存款的客户划入低风险区,其他诸如高收入低存款的月光族,以及高存款但是流水不足的客户划入高风险区。
未完待续。