• 对数据挖掘的理解和项目流程


    14年毕业,那会进了现在的公司,做当时很红火的数据挖掘。在有些人眼里我们很神秘,感觉研究的东西很高端;在有些人眼里就是个打杂工,哪里需要去哪里;还有些人决定我们什么都会就会吹水。

    真实的情况是有数据挖掘项目的时候搞项目,没项目的时候就搞培训、做系统需求分析和产品设计。确实是个看起来高端,实际上打杂和吹水的活~

    4年时间里,大部分时间其实自己是很飘的,首先飘在感觉自己做的东西确实是比较高端,随便说个词都是那帮开发没听过的,所讲的概念都比较新。随着数据挖掘这个词的热度的下降,自己完成人生的三件大事(结婚、买房、生娃)后,开始回顾过去,定位现在,放眼未来,才开始思考我所从事的行业是做什么?未来在哪里?现在需要做些什么?这几年,职场经历的领域知识太多了,人生经历也够丰富,什么东西都要知道,但是什么东西都懂的不够深入,脑子里的关于这个行业的体系、职场和生活都迫切的需要通过文字的方式梳理出来。这样才能在职场第5年,梳理出未来的5年规划。

    首先梳理数据挖掘到底是什么?数据挖掘的任务、需要解决的问题和数据挖掘的流程。本文大部分是书上或商业理论,但均经过我的行业验证,也是我一个字一个字的打出来的。无比的认可的东西。

    什么是数据挖掘:从海量数据中发现未发现的有用信息
    数据挖掘任务:分类、预测、关联、聚类
    数据挖掘需要解决的问题:海量、高维、可伸缩、多类型数据:异种数据和复杂数据 (以提升性能【效率和效果】为标准)
    数据挖掘涉及的领域:数据挖掘是一门综合性强学科和应用
    {
    应用(提升建模效果):统计学、人工智能、机器学习和模式识别
    基础(提升运算效率):数据库技术、并行计算、分布式计算
    }


    数据挖掘流程

    下面介绍的数据挖掘流程是跨行业数据挖掘通用流程,运用了好的方法论,事情就成功了一半。这个方法论就是一个数据挖掘项目的流程,包括阶段性目标、工作任务和实施要点。操作性很强,也是业界公认标准。

    运用项目流程有两个要点需要记得:

    1、数据挖掘项目数据预处理可能会花费大量的工作时间;

    2、数据挖掘项目流程并非一次性执行完毕而是不断的迭代优化,最终获得最优结果。


    商业理解:

    【阶段目标】
    明确商业问题和数据挖掘目标
    制定项目计划。
    【工作任务】
    业务需求调研,了解商业问题背景
    项目环境评估,确定需要的资源(人力、成本、数据、各方)
    商业目标确定,明确商业目标和成功的标准
    挖掘目标确定,明确数据挖掘目标和成功标准
    项目计划制定,指导项目实施
    【实施要点】
    充分的需求调研和沟通交流,
    合理的资源、约束条件假设,
    合适的挖掘结果应用场景设定

    数据理解:

    【阶段目标】
    确定建模所需用的数据
    探索建模需要的目标变量
    【工作任务】
    数据字典编制,梳理内外部数据类型
    取数口径确定,明确数据业务指标含义(各特征的取数口径、取数周期、范围)
    映射规则确定,明确数据使用的业务规则
    质量校验,确保数据可用
    目标变量探索,为模型构建做准备
    【实施要点】
    必备的内外部数据可获取
    数据一致性、完整性、准确性
    目标因子初步分析确定

    数据准备:

    【阶段目标】
    建立数据集市或宽表
    有效加载数据
    【工作任务】
    数据集市或宽表设计
    ETL脚本编写
    数据清洗、加载、转换
    数据质量校验
    数据标准化
    【实施要点】
    科学的编码规范指导编码
    准确的数据映射规则
    高效的ETL保障项目进度和质量

    数据建模:

    【阶段目标】
    选择合适的技术建模
    实现数据挖掘目标
    【工作任务】
    技术选型,选择合适的模型算法
    样本选取,确定训练样本、测试样本和验证样本
    模型建立,筛选变量、模型训练、模型测试
    模型评估,评估模型是否满足数据挖掘目标
    【实施要点】
    合适的技术帮助实现挖掘目标
    样本数据真实反映业务需求
    变量因子有效解释业务现象
    全面评估模型数据挖掘效果

    模型评估:

    【阶段目标】
    进行模型的业务应用测试
    判断是否实现商业目标
    【工作任务】
    模型试用,确定业务场景,进行模型应用测试,收集反馈效果
    效果评价,对测试效果进行评估分析,判断模型是否满足商业目标
    营销建议,根据试用效果提取营销规则并给出营销建议
    【实施要点】
    合适的业务场景试用方案
    全面科学的效果评价
    针对性的营销建议

    模型部署:

    【阶段目标】
    把数据挖掘成果部署到商业环境,应用于生产
    【工作任务】
    规划部署,制定部署计划和方案
    监控与维护,实时跟踪,验证商业目标达成情况
    总结报告,经验积累
    【实施要点】
    科学规划,保障无缝部署
    即时监控及维护响应,保障运营
    全面的总结分析,积累经验

     

    数据挖掘的过程中所涉及到的技能包括业务理解、数据开发、统计学人工智能能方面的知识。需要个人有很强大的综合能力,比如沟通能力,比如业务分析能力,比如SQL技术,比如挖掘建模能力等等。数据挖掘的魅力就在于他需要不断的扩宽知识面,找寻最好的方法,在项目中需要与人沟通、需要了解业务、需要应用技术,还需要管理整个项目,其实更像是个项目经理的角色。未来可以走项目管理和产品经理的方向。

  • 相关阅读:
    android pcm
    mongo DB的一般操作
    使用SQL Server 扩展事件来创建死锁的时间跟踪
    sql 日期格式汇总
    简述SQL2008部署多实例集群(学习)
    数据库压缩备份提高备份效率
    SSRS报表连接超时的问题
    classLoader.getResourceAsStream中文乱码
    jQuery与js对象互转
    sqlserver判断字段是否存在更改字段
  • 原文地址:https://www.cnblogs.com/xiaotangqiu/p/9477558.html
Copyright © 2020-2023  润新知