6.1项目背景和业务分析需求的提出
......
6.2数据分析师参与需求讨论
- 针对需求收集相关的背景数据和指标,熟悉业务相关逻辑
- 从数据分析的专业角度评价初步的业务分析需求是否合理,是否可行
6.3制定需求分析框架和分析计划
- 确定项目目标变量的定义
- 分析思路的大致描述
- 分析样本的数据抽取规则
- 潜在分析变量(模型输入变量)的大致圈定和罗列
- 分析过程中的项目风险思考和主要的应对策略
- 项目的落地应用价值分析和展望
6.4抽取样本数据、熟悉数据、数据清洗和摸底
- 删除缺失值高达50%以上的字段
- 对于高度线性相关的变量只保留一个
- 处理逻辑自相矛盾的字段
6.5按计划初步搭建挖掘模型
- 进一步筛选模型的输入变量(少而精)
- 尝试不同的挖掘算法和分析方法
- 整理经过模型挑选出来的和目标变量的预测最相关的一系列核心输入变量,将其作为与业务方讨论落地的应用时的参考和建议
6.6与业务方讨论模型的初步结论,提出新的思路和模型优化方案
- 对建模时给出的流失用户的定义要进行后续新数据的跟踪,看该定义是否合理,是否表现稳定,是否符合业务运营的需求
- 后期落地应用中,针对模型所判断出来的用户群可以考虑进行更加深入的分析
- 模型落地应用后的效果跟踪(新数据验证,运营组和对照组)
- 模型的优化要遵循资源合理应用的总原则
- 细分建模也是提升模型效果的一种有效手段
- 项目实践中鼓励业务方积极参与模型的讨论和建议
- 预测模型的搭建和完善遵循持续优化,永无止境
6.7按优化方案重新抽取样本并建模,提炼结论并验证模型
6.8完成分析报告和落地应用建议
- 模型的预测效果和效率(稳定性)
- 模型整理出来的可以作为运营参考的重要自变量及相应的特征、规律
- 根据模型效果和效率数据提出的落地应用的分层建议
6.9制定具体的落地应用方案和评估方案
6.10业务方实施落地应用方案并跟踪】评估效果
- 预测模型的稳定性评测
- 运行效果的评测