• 数据分析


    1、数据质量分析

    脏数据:缺失值、异常值、不一致的值、重复数据及含有特殊符号的数据

    缺失值处理

    产生原因

    1、信息无法获取或者获取代价大

    2、信息因个人原因或客观原因被遗漏

    3、根据实际而言,属性值不存在

    影响

    1、丢失大量有用信息

    2、不确定性更加显著,难以把握规律

    3、不可靠输出

    分析

    1、含有缺失值的属性的个数

    2、每个属性的未缺失数、缺失数、缺失率

    处理

    1、删除存在缺失值的记录

    2、对可能值进行插补

    1)均值/中位数/众数插补

    2)使用某个常数插补

    3)最近邻插补,采用距缺失样本最近的样本值。

    4)回归拟合,预测缺失的属性值

    5)插值法,利用已知点建立插值函数,缺失值由插值函数对应点上的值近似代替。

    3、不处理

    异常值处理

    异常值是指样本中的个别值,数值明显偏离其余的观测值,也称离群点。

    分析

    1、描述性统计,比如最大值、最小值,看那些数据取值超出合理范围

    2、3σ原则

           当数据服从正态分布,在该原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。在正态分布的假设下,数据位于距平均值超过3σ的概率为 ,属于小概率事件。

    3、箱型图(箱线图)分析

    异常值被定义为小于QL-1.5IQR或大于QU+1.5IQR的值。QL为下四分位数,表示有四分之一的数比其小;QU为上四分位数,表示全部数据中有四分之一的数值比其大;IQR为四分位数间距,IQR=QU-QL

    处理

    1、删除含有异常值的记录

    2、视为缺失值进行处理

    3、采用前后两个观测值的平均值修正

    4、不处理

    一致性处理

    数据不一致性是指数据的矛盾性、不相容性。

    导致数据不一致通常在数据集成的过程中,对不同的数据源的重复存放的数据未能进行一致性更新导致的。

    2、数据特征分析

    1、分布分析

    定量数据

    主要采用频率分布直方图。

    1、求极差

    2、决定组距与组数

    3、决定分点

    4、列出频率分布表,绘制频率分布直方图

    定性数据

    常采用饼图或条形图描述。

    2、对比分析

    1、绝对数比较

    2、相对数比较

           是由两个有联系的指标对比计算的。

           1、结构相对数:部分数值占总体数值的比重,比如食品支出占消费总额比重、产品合格率

           2、比例相对数:部分之间对比,如人口性别比例,投资与消费比例

           3、比较相对数:同一时期两个性质相同的指标进行对比,说明同类现象在不同空间条件下的数量对比。如不同地区商品价格对比等..

           4、强度相对数:将两个性质不同但有一定联系的总量指标对比,说明现象的强度、密度、普遍程度等。如人均国内生产总值、人口密度、人口出生率。

           5、计划完成程度相对数:某一时期实际完成数与计划数的对比。

           6、动态相对数:同一现象在不同时期的指标数值进行对比,说明发展方向和变化速度。

    3、统计量分析

    1、集中趋势

    1)均值

           平均值:

           加权平均:

           截断均值:去掉高、低极端值之后的平均值。

    2)中位数

    3)众数

    2、离中趋势

    1)极差

           极差=最大值-最小值

    2)标准差

           标准差度量数据偏离均值的程度:

    3)变异系数

           变异系数度量标准差相对于均值的离中趋势:

    4)四分位数间距:

    4、周期性分析

    常通过绘制曲线图来分析

    5、贡献度分析

    贡献度分析又称帕累托分析,原理为帕累托法则,有成20/80定律。例如,对一个公司而言,80%的利润常常来自于20%最畅销的商品,而其他80%的商品只产生20%的利润。

    常通过绘制帕累托图分析。

    6、相关性分析

    1、绘制两个变量的散点图

    2、多变量时,绘制散点图矩阵。

    3、计算相关系数

    1)Pearson相关系数

    一般用于分析两个连续性变量之间的关系,要求连续变量取值服从正态分布:

    r的取值范围为:-1≤r≤1:

    需要进行假设检验,可采用t检验方法检验显著性水平以确定相关程度。

    2)Spearman秩相关系数

             也称为等级相关系数:

    先对x、y分别从小到大排序,求xi、yi的秩次Ri、Qi 。注意一个变量相同取值要有相同的秩次。

    当两个变量具有严格单调的函数关系,则一定完全Spearman相关。

    需要进行假设检验,可采用t检验方法检验显著性水平以确定相关程度。

    3)判定系数

             判定系数为相关系数的平方,用 表示。用以衡量回归方程对y的解释程度。 越接近1,表明x与y之间的相关性越强。

    3、数据集成

    1、实体识别

    主要任务是统一不同源数据的矛盾。

    1)同名异义

    数据源A中的属性ID和数据源B中的属性ID分别描述的是菜品编号和订单编号,即描述的是不同的实体。

    2)异名同义

    A.sales_dt=B.sales_date。

    3)单位不统一

    比如分别用国际单位和中国传统的计量单位。

    2、冗余属性识别

    1)同一属性多次出现。

    2)同一属性命名不一致导致重复。

  • 相关阅读:
    国家行政区划地区编码表
    Java循环中标签的作用(转)
    通过ribbon 根据服务名获取所有服务实例的IP和端口列表
    rabbitmq重装依赖的erlang 要注意
    Rabbitmq关于集群节点功能的读书笔记
    CentOS7统计某个进程当前的线程数
    理解同步、异步、阻塞、非阻塞(传送门)
    代理模式和装饰模式区别
    【转载】Asp.Net生成图片验证码工具类
    【转载】使用宝塔Linux面板屏蔽某些IP访问你的服务器
  • 原文地址:https://www.cnblogs.com/ivan-count/p/10519297.html
Copyright © 2020-2023  润新知