1 问题
京东商城的用户中有一部分购买的用户容易流失, 希望可以通过数据分析圈定这一批用户, 挖掘流失原因, 并且利用运营的方法对他们进行挽留
2 完整流程
2.1 背景
• 购买的用户中有一部分容易流失, 这部分用户的购买影响到总体的收入和订单量
• 业务方希望我们数据分析师能够利用数据分析方法和机器学习的方法帮助圈定流失用户群体并且挖掘他们流失原因
2.2 参与讨论
•了解业务细节, 现有的用户流失率是什么样的, 所有地域的流失率都是一样的?
•了解要解决什么问题, 预测流失的用户
•评估需求是否合理, 很多需求是伪需求, 需求合理化或者需求转化
•提前预判现有的数据能不能解决问题, 避免现有的数据可能有限, 解决不了问题
2.3 制定分析框架
• 分析目标 数据化, 把业务的流失问题用数据表示出来
• 分析的思路的大致描述, 用什么方法, 提取哪些数据
• 分析的样本的数据抽取规则, 比如选取多长时间的窗口用户进行预测, 是否有地域限定, 年龄限定, 其他行为限定
• 项目的落地价值和迭代方向
2.4 数据摸底和提取
2.5 数据清洗
•对缺失值进行处理, 对于数据值型的数据利用平均数, 中位数等进行填充, 非数值型的数据, 利用随机抽样进行填充,或者利用模型进行预测
•对于异常值进行清除, 比如性别除了男女 不能有其他性别吧, 年龄不能有200岁等
•对严重不符合逻辑的数据进行处理 比如打开京东app 的天数小于购买的天数等
•明显不能用的字段要提前标注 不要放进模型中, 这种数据可能提前发现不了, 需要跟业务方和开发进行沟通
2.6 特征处理
•共线性的特征处理, 比如登陆天数和登陆次数, 这两个特征相关性很大, 一般只保留一个
•特征离散化: 利用分箱方法对年龄由连续性的数字转为离散的 比如 “20-30岁”, “30-40”岁等
•特征统计变化: 这种一般处理具有很大偏态分布的特征, 进行Log变换
2.7 建模
模型结果——以决策树为例
模型结果建议
流失用户圈定的标准:
•年龄大于40岁
•年龄小于40岁登陆天数小于5天
•年龄小于40岁登陆天数大于5天且月订单量小于5
流失用户挽留测试