在数据分析或者数据挖掘的时候,经常碰到回归和分类的问题,下面详细说下我对我这两概念的理解。
回归
一直对为什么叫回归很好奇,百度百科对回归的定义如下:
回归,指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常Y1,Y2,…,Yi是因变量,X1、X2,…,Xk是自变量。
一直想不懂为什么叫回归,查了一下,大概可能是原因。
左图是一个房间大小和房价的数据图,右图是一个拟合图(图片来自http://blog.csdn.net/ppn029012/article/details/8775597)
之所以叫回归,是因为对于一个好的拟合曲线(如上图中的蓝线),所有的数据点都在想着拟合曲线靠拢的过程,可以想象成这些数据点向拟合曲线回归的过程。
从回归的定义也可以看出,回归倾向于一个X值对于一个Y值,这是和分类不同的地方。
分类
如果能找到合适的拟合曲线或者拟合函数的话,分类问题也可以转成回归问题,比如下面的问题:
这显然 是一个分类问题,但我们找到一个函数可以拟合这个分布,也就是可以用回归的方法的做分类
最后总结一下回归和分类的联系和区别:
给定一个样本特征 x, 我们希望预测其对应的属性值 y, 如果 y 是离散的, 那么这就是一个分类问题,反之,如果 y是连续的实数, 这就是一个回归问题。
也就是说,回归和分类不是绝对的分离,只是他们的目标不一样;在能找到合适的拟合曲线的情况下,分类问题可以转化为回归问题;
这也是为什么很多回归算法可以应用到分类的原因之一。