• Data Mining | 数据挖掘技术基础与进阶


     

    1 数据挖掘技术基础

    1.1 描述性统计分析

    在现实工作中,不是所有的问题都需要用建模来解决,一些简单的问题如果能用简单方法,就不要使用复杂的解决方案。这样既提升了效率,也减少了出错的可能。即使是非常复杂的问题,我们往往也需要首先用简单的方法,对问题进行一个概括和总览 —— 描述性统计

    描述性统计,是指用图(直方图、散点图…)或表来对数据总体中有关变量进行统计,包括频数分析、集中趋势分析、离散程度分析、数据分布、统计图形。

    • 频数:利用频数分析和交叉频数分析可以检验异常值
    • 集中趋势:反映数据的一般水平,常用指标有均值、中位数、众数
    • 离散程度:反映数据之间的差异程度,常用指标有方差、标准差、四分位数、最大值、最小值
    • 分布:用偏度、峰度两个指标来检查样本数据是否符合正态分布tt
    • 统计图形:用直方图、散点图…能更清晰展现数据规律

     
    在实际应用中(如数据EDA分析),常把变量分为连续型和离散型,描述性统计分析常用的统计量有:

    • 离散型:统计频数、百分比、累计频数、累计百分比
    • 连续型:根据实际需要考虑是否需要对变量离散化,再进行统计
      • 离散化:和离散型变量一样,统计频数、百分比、累计频数、累计百分比
      • 不离散化:统计非缺失数、缺失数、第1百分位数、第10百分位数、第25百分位数、第50百分位数、第75百分位数、第90百分位数、最小值、最大值、均值、标准差

     

    2 数据挖掘技术进阶

    2.1 数据挖掘算法

    数据挖掘中用到的算法,可以从算法理论层面、算法学习方式、算法学习任务三个角度进行分类。

    2.1.1 分类一:算法理论层面

     
    数理统计算法,建模一般流程遵循①假设检验 → ②建模参数选择 → ③构建模型 → ④假设检验评估模型 → ⑤参数调优 这5个步骤。而机器学习算法建模,一般流程是一个循环往复、不断迭代、不断优化的过程,详见下图:

    在实际应用场景中,虽然数理统计算法是基于统计学,但它们也常常用机器学习的建模思路进行应用。总之,特征是对客观世界的抽象,算法则是对事物运行规律内嵌逻辑的还原,算法作用于特征从而无限逼近客观事物运行规律的过程,则是机器学习或者数据挖掘的过程。

     

    2.1.2 分类二:算法学习方式

     

    2.1.3 分类三:算法学习任务

    各种算法的学习任务,本质就是数据挖掘的任务,上述学习任务可分为两大类:

    • 描述型数据挖掘:是对现有数据特征的呈现,没有标签(无监督)。如关联规则、序列模式、聚类
    • 预测型数据挖掘:是是对未来趋势的预测,数据有标签(有监督)。如分类、回归

     

    2.2 数据挖掘技术的绩效增益

    思考一个问题:数据挖掘是如何提升业务的?一般来说,提高业务绩效有三种方法——创意优惠名单。名单指的是营销活动的具体对象,如根据名单向客户进行营销活动,提高客户的购买概率,进而提高营销活动的绩效。创意和优惠这两种方法,主要是通过人力,物力,财力等实现,而名单这种方法则是通过数据挖掘技术实现的,可见数据挖掘技术的绩效增益,主要是通过向使用者提供“名单”得以实现的。

  • 相关阅读:
    EF
    采用什么架构,才能够承受大访问量
    13个MVC的扩展
    c#与.NET的区别
    整合Spring.net到asp.net网站开发中初探
    C#多线程编程简述
    ASP.NET页面传值的几种方式
    正则RegEXp
    C#中Cache用法
    c#程序将excel文件转换成xml文件
  • 原文地址:https://www.cnblogs.com/1k-yang/p/13070985.html
Copyright © 2020-2023  润新知