• SAS 学习 day1


    数据采样

    抽样方法:简单随机抽样、分层抽样、整体抽样、系统抽样

    简单随机抽样     从sashelp数据集中air数据文件中选取30个数据

    Proc Surveyselect Data = sashelp.air Out=test1 Noprint
    Sampsize = 30; #按指定数量抽取
    Run;

     Proc Surveyselect Data = sashelp.air Out=test1 Noprint
      Samprate = 0.3; #按比例抽取
      Run;

    输出文件

     数据探索

    数字特征的探索:均值、频数、最大值、最小值、众数、中位数、方差、标准差

    数字分布的探索:是否服从正态分布

    连续型变量分布

    means过程

    Proc means data = Data.b_rise maxdec =4; #保留小数位数
    var weight;  #指定分析变量   默认有均值、标准差、最大值、最小值
    title'Descriptive Statistics for weight';
    run;

     

    Proc means data = Data.b_rise 
    maxdec =4
    n mean median std var q1 q3;
    var weight;
    title'Descriptive Statistics for weight';
    run;

     

    univariate过程

    1、weight在每个brand值上的分布状况

    2、wight在每个brand值上是否服从正态分布

    proc univariate data = Data.B_cereal;
    class brand;
    var weight;
    probplot weight / normal(mu = est sigma=est color=blue w=1); #pb图来检验是否服从正态分布
    假设服从normal 在曲线附近 表明实际分布和理论分布相差不大 title
    'Univariate Analysis of the Cereal Data'; run;

     

    图形化展示

     boxplot过程

    proc sort data=data.b_cereal out=b_cereal;
    by brand;   #先将brand中分两类数据输出
    run;
    proc boxplot data = b_cereal;
    plot weight*brand / cboxes = black BOXSTYLE=schematic; 输出一个盒状图
    run;

    盒装图  上四分位数  下四分位数

     离散型变量

     计算各个类型的占比

     

    在每个组合上占比
    proc freq data = data.color; weight count; 频数变量
    tables Eyes Hair Eyes
    *Hair / out=FreqCnt outexpect sparse; title'eye and hair color of europen children'; run;

    缺失值补充

    单一插补和多重插补

    单一插补:从其预测分布中取一个值填充缺失值

    插补方法:业务逻辑;均值法;最小邻居法;回归法

    单一插补往往会低估估计量的方差

    多重插补是一种以模拟为基础的方法,对每个缺失值产生m个合理的插补值,这样插补后,得到m组完全数据,使用标准的完全数据方法分析每组数据并融合分析结果。二次估计

    单一插补法 根据中位数来插 缺失值全部填充成中位数

    proc stdize data=data.mi
    reponly
    method = median 采用什么方法
    out = imputed;
    var acctage;
    run;

     

  • 相关阅读:
    Fiddler系列教程3:使用Fiddler录制Jmeter性能测试脚本
    PySide6读取EXCLE文档
    C#实现操作DOS命令的方法
    在PyCharm中调用xlrd模块出现 ModuleNotFoundError: No module named 'xlrd' ,但在sublime却可以正常
    pip安装时出现错误:File "D:Python39Scriptspip.exe\__main__.py", line 4, in <module> ModuleNotFoundError: No module named 'pip'
    /ect/fstab与/etc/mtab的区别
    虚拟机中Ubuntu系统修改分辨率
    关于报错Could not load file or assembly的问题
    关于WinCC归档应该知道的事
    vue + element 表单的简单公用组件,表格的集成写法
  • 原文地址:https://www.cnblogs.com/suizhixxie/p/10396072.html
Copyright © 2020-2023  润新知