数据挖掘在电信客户流失分析中的应用

数据挖掘在电信客户流失分析中的应用

数据挖掘是近年来伴随着人工智能和数据库技术发展而出现的一门新兴技术。它的核心功能是从巨大的数据集或数据仓库中获取有用信息，以供企业分析和处理各种复杂的数据关系。随着电信市场竞争的日益加剧，运营商普遍开始向“客户驱动”管理模式转变。最近几年，数据挖掘技术以其强大的数据分析功能被普遍应用到电信运营商客户管理之中。

　　数据挖据的主要方法

　　作为一种先进的数据信息处理技术，数据挖掘与传统的数据分析的本质区别在于它是数据关系的一个探索过程，而且多数情况下是在未有任何假设和前提的条件下完成的。数据挖掘具备多种不同的方法，供使用者从不同的纬度对数据展开全面分析。

　　(1)相关分析和回归分析。相关分析主要分析变量之间联系的密切程度；回归分析主要基于观测数据与建立变量之间适当的依赖关系。相关分析与回归分析均反映的是数据变量之间的有价值的关联或相关联系，因此两者又可统称为关联分析。

　　(2)时间序列分析。时间序列分析与关联分析相似，其目的也是为了挖掘数据之间的内在联系，但不同之处在于时间序列分析侧重于数据在时间先后上的因果关系，这点与关联分析中的平行关系分析有所不同。

　　(3)分类与预测分析。分类与预测用于提取描述重要数据类的模型，并运用该模型判断分类新的观测值或者预测未来的数据趋势。

　　(4)聚类分析。聚类分析就是将数据对象按照一定的特征组成多个类或者簇，在同一个簇的对象之间有较高的相似度，而不同的簇之间差异则要大很多。在过程上看，聚类分析一定程度上是分类与预测的逆过程。

　　数据挖掘的应用

　　目前，电信运营商面临激烈的市场竞争，客户争夺愈演愈烈，每个企业都存在客户流失的问题。传统意义上来讲，留住一个客户所需要的成本是争取一个新用户成本的1/5，尤其对于剩余客户市场日渐稀疏的通信市场来说，减少客户流失就意味着用更少的成本减少利润的流失，这点已经为运营商所广为接受。然而问题所在是当运营商面临海量的客户资料时，应如何才能够从中提取出有效的信息以判断客户流失的状况或者倾向。在此，数据挖掘所提供的数据探索能力得到了充分的发挥，下面简要地描述数据挖掘在客户流失分析管理中的应用过程。

　　(1)定义主题客户流失分析中的主题应当包括流失客户的特征；现有客户的流失概率如何(包括不同细分客户群的流失程度)；哪些因素造成了客户的流失等。主题是数据挖掘的主要目标，决定了此后过程中数据挖掘的主要努力方向，因此在定义上应当十分明确。

　　(2)数据选择。数据选择是数据挖掘的前提，主要是确定数据字段的收集，因为并不是所有的客户信息都会对客户的流失产生影响，应尽可能地降低数据的复杂度以发掘较高的关联度，但是考虑到后期客户流失的多维分析，应当尽量确保客户信息的完整性，因此，应对客户的有价值信息予以区分收集，剔除部分冗余数据，减少数据噪音。此间要注意的是在客户流失分析上，从数据仓库中采集数据的主要目的是调查客户信息的变化情况，因此对数据采集时间间隔的设置显得尤为重要。若采集时间过长，可能在流失判断出来时客户已然流失；若采集时间过于紧密或者实时采集则需要考虑运营商现有系统的支撑能力。

　　(3)分析数据。分析数据主要是对提取的数据进行分析，找到对预测输出影响最大的数据字段，并决定是否需要定义导出字段。在分析数据时需要谨慎选择对预测相关的流失客户数据参与建模才能有效建立模型。分析数据过程还应包括数据清洗和数据预处理。数据清洗和预处理是建模前的数据准备工作，主要包括数据抽样、数据转换、缺损数据处理等。数据抽样是根据事先确定的数据进行样本抽取，选择抽样而不是对整体进行处理，以降低系统的处理量。另外样本一般分为建模样本和测试样本，一部分用来建模，另一部分用来对模型进行修正和检验。数据转换是为了保证数据的质量和可用性，比如某些数据挖掘模型需要对连续数据进行离散化、归一化处理等。缺损数据有时可以不做处理，由后面具体选择的数据挖掘模型来处理。

　　(4)模型建立。对数据进行分析并利用各种数据挖掘技术和方法在多个可供选择的模型中找出最佳模型。初始阶段可能模型拟合度不高，需要反复更换模型，直到能够找到最合适的模型来描述数据，并从中找到规律。建立模型通常由数据分析专家配合业务专家来完成，常用的流失分析模型主要有决策树、贝叶斯网络和神经网络等。

　　(5)模型的评估与检验。模型建立之后，一般要通过训练集的测试才能考虑下一步应用。比较常规的验证方法是输入一些历史的流失客户数据，运行此模式予以判断，比较数据挖掘的结果与已知历史结果的差异。客户流失判断一般存在两种错误结果。一是弃真错误，即原有历史客户具备流失倾向并且已经流失，但是模型未能够准确预测客户的流失倾向；二是存伪错误，即原有用户并未有流失的倾向，但被模型判断为具有流失倾向。

　　(6)应用模型。从前面的工作中可以得出一些简单的结论，比如通信支出越少的客户越容易流失、欠费频率越高的客户越容易流失等。除此之外，数据挖掘人员还应配合业务专家，根据数据挖掘分析寻找流失的原因，并找出潜在的规律，对未来的客户流失进行预测，指导业务行为。

　　流失分析中需要注意的问题

　　与其它行业客户流失分析相比，电信行业以其庞大的客户群而特征鲜明，因此在一些问题的处理上也应当多加注意。

　　(1)过度抽样。从实际情况上看，国内电信企业每月的客户流失率一般在1%～3%左右，如果直接采用某种模型(比如决策树、人工神经网络等)可能会因为数据概率太小而导致模型的失效，因此我们需要加大流失客户在总样本中的比例，但是这种过度抽样必须谨慎小心，要充分考虑它的负面效应。

　　(2)模型的有效性。在实际运用的过程中，数据挖掘除了上述提到的两类错误之外还可能存在客户被判断具备流失倾向，但当数据返回到客户服务前台的时候客户已经流失的情况，其原因可能存在于不同业务部门之间协调工作的时延过长或者数据采集间隔太长等，这使得流失判定预警丧失了原有的意义。

　　(3)模型的流失后分析。数据挖掘在客户流失管理中的重要应用不仅仅应包括对客户流失的提前预警，还应包括客户流失后的问题分析。按照不同的客户信息纬度，查找最容易流失的客户群，同业务部门人员配合，辅以相关调查，力求发现客户流失的症结所在。然而，这一部分往往由于过度专注于挖掘模型本身的拟合度而忽略了流失管理的实际价值所在。

　　随着电信行业竞争的日益加剧，客户保留和客户价值开发将成长为电信企业考虑的重点所在，而技术的不断进步将为深度的数据挖掘提供更多的支持，也必然会被越来越多地应用到运营商的客户关系管理之中。
相关阅读:
AT5147[AGC036D]Negative Cycle【dp,模型转换】
pjudge#21652[PR #4]到底有没有九【数位dp】
legion:使用多工具分门别类地扫描多个目标，有用
 antix
skipfish: web scaner, usefully
dmitry
maltego
常见靶场
 reconng从多个源头搜集主机和域名，但需要apikey。不大好用
 account/username&password tool
原文地址：https://www.cnblogs.com/leaf9/p/2673111.html