箱形图是数据集中数据分布情况的衡量标准。它将数据集分为三个四分位数。盒形图表示数据集中的最小值,最大值,中值,第一四分位数和第四四分位数。 通过为每个数据集绘制箱形图,
比较数据集中的数据分布也很有用。
R中的盒形图通过使用boxplot()
函数来创建。
基本公式为:
boxplot(x, data, notch, varwidth, names, main)
x - 是向量或公式。data - 是数据帧。notch - 是一个逻辑值,设置为TRUE
可以画出一个缺口。
varwidth - 是一个逻辑值。设置为true
以绘制与样本大小成比例的框的宽度。names - 是将在每个箱形图下打印的组标签。
main - 用于给图表标题。
> A <- c(79.98, 80.04, 80.02, 80.04, 80.03, 80.03, 80.04)
> B <- c(80.02, 79.94, 79.98, 79.97, 79.97, 80.03, 79.95)
> boxplot(A,B,notch=T,names=c('A','B'),col=c('green','yellow'))
五数总括:
在探索性数据分析中,最有代表性,能反映数据特征的的五个数:上四分为数,下四分为数,中位数,最小值和最大值
R语言中,使用函数fivenum(x,na.rm=TRUE)来计算五个数,na.rm=TRUE,代表数据集中缺失值的时候,舍去
> fivenum(A)
[1] 79.980 80.025 80.030 80.040 80.040
> fivenum(B)
[1] 79.94 79.96 79.97 80.00 80.03