实现目标
1)借助航空公司客户数据,对客户进行分类
2)对不同的客户类别进行特征分析,比较不同类客户的客户价值。
3)对不同价值的客户类别提供个性化服务,制定相应的营销策略。
分析方法和过程
传统的客户价值识别的3个指标:时间间隔,消费频率,消费金额。
而相同消费金额的客户对航空公司来说可能是有不同价值的,如长航线低等级舱和短航线高等舱。因此我们选择客户在一定时间内累计的飞行里程和客户在一定时间内乘坐舱位所对应的折扣系数的平均值这两个指标来代替消费金额。客户入会时间的长短在一定程度上能影响客户价值,所以在模型中增加客户关系长度属性。
最终确定的属性有5个:入会时间长度、最近一次乘飞机距离观察窗口结束的月数、观察窗口内乘坐飞机的次数、观察窗口内累计飞行的旅程、观察窗口内乘坐舱位所对应的折扣系数的平均值
传统模型分析采用的是属性分箱方法。这里我们使用确定好的五个指标来进行K-means聚类,识别出最优价值的客户。
数据探索分析
对数据进行缺失值分析和异常值分析,分析出数据的规律以及异常值。
数据预处理
1、数据清洗
原始数据量大,缺失的数据所占比例较小,对于问题影响不大,直接删除
2、属性规约
我们只要与模型相关的几个属性。从数据表中删除不相关、弱相关或者冗余的属性。
数据变换
1、属性构造
原始数据并不能直接得到我们需要的5个属性的值,因此进行属性构造。
2、数据标准化
五个指标的数据提取后,对每个指标数据分布情况进行分析,其数据的取值范围差异较大,为了消除数量级数据带来的影响,需要对数据进行标准化。
构建模型
包括两个部分:聚类分群;对每个客户群进行特征分析,分析其客户价值,并对每个客户群体进行排名。
1、聚类分群
比较簇中心的各个特征值的相对大小,按照每个簇中心进行客户群体划分,每个客户群体特征可由簇中心的相关值衡量。
本模型采用历史数据进行衡量,随着时间的变化,分析数据的观察窗口也在变化。因此,对于新增客户详细信息,考虑业务的实际情况,该模型建议每一个月运行一次。