Standard Deviation (SD), Standard Error (SE),Confidence Interval (CI). 画barplot，置信区间

Standard Deviation (SD), Standard Error (SE),Confidence Interval (CI). 画barplot，置信区间

Standard Deviation(SD) 标准（偏）差，代表变量的分散程度，离散量。统计为方差的平方根（Calculated as the root square of the variance）

　　sd<-sd(vec) 等同于

　　sd<-sqrt(var(vec))

Standard Error(SE) 标准误差，代表向量抽样分布的standard deviation .统计为SD除以样本量大小的平方根。因此，SE小于SD,当样本很大时，SE趋近于零

　　se=sd(vec)/sqrt(length(vec))

Confidence Interval(CI,置信区间) 定义一个区间，那么一个值在此区间内的概率，统计为t*SE。t是一个特定alpha在Student （t）分布的值。如果样本量足够大，值接近1.96，与样本量有关。如果样本量很大或分布不正态，使用boostrap方法(计算机程序)统计CI更合适。

　　alpha=0.05

　　t=qt((1-alpha)/2+.5,length(vec)-1) #qt(p,df,ncp,lower.tail=TRUE,log.p=FALSE)

　　CI=t*se

如：

> vec=c(1,3,5,9,38,7,2,4,9,19,19)

> sd<-sd(vec)

> sd

[1] 10.99421

> sd<-sqrt(var(vec))

> sd [1] 10.99421

> se=sd(vec)/sqrt(length(vec))

> se

[1] 3.31488

> alpha=0.05

> t=qt((1-alpha)/2+.5,length((vec)-1) + )

> t

[1] 2.200985

> CI=t*se

> CI

[1] 7.296002

通过画bar图比较三个的区别

> library(ggplot2)

> library(dplyr)

> data<-iris %>%select(Species,Sepal.Length)

> glimpse(data)

my_sum<-data %>%group_by(Species) %>%summarise(n=n(),mean=mean(Sepal.Length),sd=sd(Sepal.Length)) %>%mutate(se=sd/sqrt(n)) %>%mutate(ic=se*qt((1-0.05)/2+.5,n-1)) #定义三列统计数据

glimpse(my_sum)

> ggplot(my_sum)+geom_bar(aes(x=Species,y=mean),stat="identity",fill="forestgreen",alpha=0.5)+geom_errorbar(aes(x=Species,ymin=mean-sd,ymax=mean+sd),width=0.4,colour="orange",alpha=0.9,size=1.5)+ggtitle("using standard deviation")

> ggplot(my_sum)+geom_bar(aes(x=Species,y=mean),stat="identity",fill="forestgreen",alpha=0.5)+geom_errorbar(aes(x=Species,ymin=mean-se,ymax=mean+se),width=0.4,colour="orange",alpha=0.9,size=1.5)+ggtitle("using standard error")

> ggplot(my_sum)+geom_bar(aes(x=Species,y=mean),stat="identity",fill="forestgreen",alpha=0.5)+geom_errorbar(aes(x=Species,ymin=mean-ic,ymax=mean+ic),width=0.4,colour="orange",alpha=0.9,size=1.5)+ggtitle("using confidence interval")

#qt(p,df,ncp,lower.tail=TRUE,log.p=FALSE) #qt 具有df自由度（和可选的非中心参数ncp）的t分布的密度、分布函数、分位数函数和随机生成。

p 向量的概率

df 自由度水平（degree of freedom）

ncp non-centrality 非中心参数delta，目前除了rt(),仅适用于abs(ncp)<=37.62.如果省略，则使用中心contral t分布

log,log.p 逻辑值，如果是TRUE,概率p会以log(p)形式给出。

lower.tail 逻辑值，如果TRUE（默认）,概率是P[X<=x],否则，P[X>=x]

本文来自博客园，作者：BioinformaticsMaster，转载请注明原文链接：https://www.cnblogs.com/koujiaodahan/p/16055192.html
相关阅读:
python基础--函数的命名空间and作用域
 MYSQL基础常识
 python基础--函数
 python基础--文件相关操作
 python基础--字符编码以及文件操作
 homebrew长时间停在Updating Homebrew 这个步骤
 python基础--数据类型的常用方法2
python基础--数据类型的常用方法1
python基础--定义装饰器(内置装饰器)
angular创建组件
原文地址：https://www.cnblogs.com/koujiaodahan/p/16055192.html