• 4. 数据统计分析基础知识


    什么是数据分析

    • 专业

      有针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据的科学与艺术

    • 客观

      从行业的角度看,数据分析是基于某种行业目的,有目的地进行收集、整理、加工和分析数据,提炼有价值信息的一个过程

    • 本质

      数据分析包括3个方面:目标、方法和结果。

      1. 目标:数据分析的关键再与设立目标,专业上叫做『有针对性』
      2. 方法:数据分析的方法包括统计分析和数据挖掘
      3. 结果:数据分析最终结果要得出分析的结果,结果对目标解释的强弱,结果的应用效果如何。

    数据分析六步曲

    数据分析六部曲图

    明确分析目的和内容

    对数据分析目的的把握是数据分析项目成败的关键。

    • 数据分析的对象是什么?
    • 数据分析的目的是什么?
    • 最终的结果是要解决什么业务问题?

    数据收集

    如何准确有效的收集数据,从而客观全面地反映要研究的问题的真实情况。

    数据处理

    数据预处理是指对收集到的数据进行加工、整理,以便开展后续的数据分析。
    数据预处理主要包括以下几个步骤:

    1. 数据审查
      检查数据的数量(记录数)是否满足分析的最低要求,字段值的内容是否与研究目的要求一致,是否全面,包括利用描述性统计分析,检查各个字段的字段类型,字段的最大值、最小值、平均数、中位数等,记录个数、缺失值或空值个数等。
    2. 数据清理
      对数据审查中发现的错误值、缺失值、异常值、可疑数据,选用适当的方法进行清理。
    3. 数据转换
      不同字段由于计量单位不同,往往造成数据不可比。需要在分析前对数据进行变换,包括无量纲化处理、线性变换、汇总和聚集、适度概化、规范化、归一化等。
    4. 数据验证
      初步评估和判断数据是否满足统计分析的需求,从而决定是否需要增加或减少数据量。利用简单的线性模型及散点图、直方图、折线图等图形进行探索性分析,利用相关性分析、一致性检验等方法对数据的准确性进行验证,确保不把错误和偏差的数据带入到数据分析中。

    上面4个步骤是一个逐步深入、由表及里的过程。先是从表面上查找容易发现的问题(如数据记录个数、最大值、最小值、缺失值和空值个数等),接着对发现的问题进行处理,即数据清理;再就是提高数据的可比性,对数据进行一些变换,使数据形式上满足分析的需要;最后则是进一步检测数据内容是否满足分析需要,诊断数据的真实性及数据之间的协调性等。

    数据分析

    数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律,为商业目的提供决策参考。

    • 常用的数据分析方法

      1. 要掌握期望、方差、中位数、众数等数据描述方法;
      2. 要了解回归、分类、聚类、时间序列数据分析等方法的原理、使用范围、优缺点和结果的解释
    • 常用的数据分析工具

      SPSS, R, Matlab, SAS, Python等

    数据展现

    一般情况下,数据分析的结果都是通过图、表的方式来展现。

    常用的图表包括:饼状图、折线图、柱状图/直方图、散点图、雷达图、金字塔图、矩阵图、漏斗图、帕累托图等。

    报告撰写

    最后阶段,就是撰写数据分析报告,对整个数据分析成果进行呈现。

    通过报告,把数据分析的目的、过程、结果及方案完成的呈现出来。

    数据分析报告要有明确的结论、建议和解决方案,而不仅仅是找出问题,更重要的是解决问题。

    Reference

    1. 从零进阶!数据分析的统计基础(第2版)
  • 相关阅读:
    HDU 2098 分拆素数和 数论
    CodeForces The Endless River
    CodeForces Good Words
    CodeForces A or B Equals C
    HDU 1251 统计难题 字典树/STL
    CSUOJ 1555 Inversion Sequence 线段树/STL
    OpenJudge P4979 海贼王之伟大航路 DFS
    敌兵布阵 线段树
    HDU 4004 The Frog's Games 二分
    HDU 2578 Dating with girls(1) 二分
  • 原文地址:https://www.cnblogs.com/bermaker/p/9163927.html
Copyright © 2020-2023  润新知