• 数据挖掘概念与技术(韩家伟)阅读笔记2


    1.数据清理:

           通过填写缺失的值,光滑噪声数据,识别或删除离群点并解决不一致性来清理数据。

    2.数据集成

            集成多个数据库,数据立方体或文件。

            由于不同的数据库同一概念的属性可能有不同的名字,或者属性值命名不一致等都会造成不一致性和冗余。所以在准备数据时应当避免数据冗余,还不仅仅是简单的组合在一起。

    3.数据变换

          规范化(对某属性按比例映射到一个特定的区间)和聚集(求和等,比如获得年收入)。

    4.数据规约

           简化数据集。方法:数据聚集,属性子集选择,维度规约,数值规约。

    5.描述性数据汇总

           目的:获得数据总体印象,凸显那些数据值应当被视为噪声或离群点。

           数据中心趋势:均值(对极端值非常敏感),中位数(适用于对于倾斜,非对称 的数据集),众数,中列数(max和min的均值)。

                       对于分对称的单峰频率曲线有:

                     mean-mode =3*(mean-median);均值-众数=3*(均值-中位数)。

            数据离中趋势:四分位数,四分位数极差,方差。

                  a.第一个是四分位数Q1是第25个百分位数(第k个百分位数Xi即百分之k的数据项位于或低于xi)。

                  b.中间四分位数极差IQR=Q3-Q1;

                  c.五数概括:中位数,Q1,Q3,最大观测值,最小观测值。

                            表示方法:盒图。

                            单独会出的的观测值是超过Q3,1.5*IQR或者小于Q1,1.5倍IQR的那些值。

                   d.方差和标准差

                             他们是关于均值的度量,即只有选择均值作为中心度量时才使用。

                   e.图形显示:

                        直方图,分位数图

                         分位数-分位数图(q-q图):即对于分位数a,分别有x,y两个数据,则坐标(x,y)作为坐标中的一个点。观察单变量的有效方法(在不同情况下的不同取值)。

                         散布图:观察双变量的有效方法。观察两个变量之间是否相关(正相关,负相关等)。

                         loss曲线:在散布图中添加一条光滑的曲线,来拟合数据的分布。参数:a,光滑参数,典型取值1/4--1的正数,越大越光滑,但可能出现拟合不足(局部的抖动无法表示),太小的话,过分拟合可能造成局部过分的抖动造成实际数据不支持。b,可以是1或2(二次拟合存在局部最大最小值)。 

  • 相关阅读:
    Android Studio更新升级方法
    手把手教你用android studio创建第一个安卓程序加载html5页面(二)
    手把手教你用android studio创建第一个安卓程序加载html5页面(一)
    spoon kettle连接数据库失败解决方法
    AE多用户同时编辑同一个版本数据的解决方法
    ARCGIS知乎上的好文章
    mac系统访问windows共享文件夹
    奶爸程序员的“育儿”心得
    tomcat取带有中文的参数乱码的解决办法
    java问题排查可能用到的一些命令
  • 原文地址:https://www.cnblogs.com/zjh225901/p/6014948.html
Copyright © 2020-2023  润新知