具体的技术手段--五种常见的回归分析模型:有解释型变量X因变量Y(通过确定Y,确定Y的数据类型,来确定回归分析类型或机器学习算法)
1. 线性回归:Y是连续型数据—任何两个数据之间都可以存在一个差值,如身高体重价格收益房价等;
实际上没有完全的连续型数据,几乎都是离散型数据。
2. 0-1回归:因变量Y是0-1型(即是0或者1)数据的回归,如性别。应用场景可能最多的回归模型。
如:是否购买车险/保险;信贷是否借贷给客户;
可以根据业务场景改变Y,但是不能改变Y是0-1型数值
3. 定序回归:因变量Y是确定顺序的回归。如偏好程度/满意度(此时可能用1,2,3,4等没有代数意义的来表示)等。
大量判定到人类心理的数据,一般都是定序回归。但也有例外,比如两个选项(满意/不满意-0%/100%)
4. 计数回归:因变量Y为数数型的数据。如养育孩子的个数,养育宠物的个数等。
只能是整数,也是正数,也有代数(数量)意义。数量不能太大
如:客户关系管理:每天来门店几次;
5. 生存分析:刚开始用在医学。因变量Y为截断的数据,比如观测12个月的病人,12个月以后可能用12+表示。
如生存时间/生活质量等——不可能一直无限观测,很多研究都有观测周期。
如公司的生存和死亡:天使轮为出生,A轮/破产为死亡;
如消费者终生客户生命周期;