• 机器学习之数据探索——数据特征分析(对比分析与统计量分析)


    在数据探索工作中,作为数据特征分析的角度,对比分析、统计量分析同样是发掘数据间关系与数据特征的重要渠道。

    1 对比分析

    对比分析是指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢等,主要强调各角度的“比较”。

    对比分析主要有以下两种形式:
    1)绝对数比较
    适合指标在量级上不能差别过大,常用折线图、柱状图。
    2)相对数比较
    包括结构分析、比例分析、空间比较分析、动态对比分析等,例如:
    结构相对数:将同一总体内的部分数值与全部数值对比求得比重,用以说明事物的性质、结构或质量。如居民食品支出额占消费支出总额比重、产品合格率等。
    比例相对数:将同一总体内不同部分的数值进行对比,表明总体内各部分的比例关系。如人口性别比例、投资与消费比例等。
    比较相对数:将同一时期两个性质相同的指标数值进行对比,说明同类现象在不同条件下的数量对比关系。如不同行业、不同企业间某项指标对比等。
    动态相对数:将同一现象在不同时期的指标数值进行对比,用以说明发展发向和变化的速度。如发展速度、增长速度。

    由于数据的对比所涉范围极其宽广,各种可能的对比角度均可执行,所以从哪个方面进行对比还得依赖实际问题与关注点,本文不再示例。

    2 统计量分析

    统计量分析用于检查数据特征,把握数据整体的性质,包括检查数据的集中程度、离散程度和分布形状,通过这些统计量可以从整体上把握数据的重要性质。

    2.1 集中趋势

    常用指标有均值、中位数、众数等。

    2.2 离中趋势

    常用指标有标准差、四分位间距、极差、变异系数等。

    python中已内置了描述上述统计量的方法:

    2.3 分布形状

    分布形状使用偏度系数和峰度系数来度量,

    偏度系数是用于衡量数据分布对称性的统计量,反映数据分布偏移中心位置的程度。正态分布的偏度为0;偏度<0称分布具有负偏离(左偏态),此时数据位于均值左边的比右边的多,有个尾巴拖到左边,说明左边有极端值;偏度>0称分布具有正偏离(右偏态);偏度接近于0 ,认为分布对称。例如:分布有可能在偏度上偏离正态分布,则可用偏度来检验分布的正态性。偏度的绝对值数值越大表示其分布形态的偏斜程度越大。

    峰度系数是用于衡量数据分布陡峭或平滑的统计量,判定数据分布相对于正态分布而言是更陡峭还是平缓。例如:正态分布的峰度系数值是3;K>3的峰度系数说明观察量更集中,有比正态分布更短的尾部;K<3的峰度系数说明观测量不那么集中,有比正态分布更长的尾部。

    关于偏度与峰度的进一步阐释可以参考这篇博客:https://blog.csdn.net/u012735708/article/details/84750295

  • 相关阅读:
    解决ftp的pasv模式下iptables设置问题
    linux修改运行中的脚本
    shell脚本——列出质数
    转载:tomcat设置https的两种方式
    Centos缺少ifconfig命令
    转载:MySQL 数据库设计总结
    转载:HTML5视频推流方案
    转载:Linux五种方案快速恢复你的系统
    转载:HT可视化案例
    转载:21种JavaScript设计模式最新记录(含图和示例)
  • 原文地址:https://www.cnblogs.com/pythonfl/p/12442974.html
Copyright © 2020-2023  润新知