前言
这个系列的笔记是StatQuest视频的学习笔记,我的这些笔记有时候会使用一些自己以前收录的数据,外加自己补充的一些笔记。此篇笔记是基础知识,视频教程的1-5。
一.什么是直方图
如果我们测量一批人的身高,他们的身高并不固定,因此我们先做一个x轴,从左到右身高依次增高,如下所示:
![](http://upload-images.jianshu.io/upload_images/45281-8c89bddfaac53514.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1000/format/webp)
此时,我们开始测量这批人的身高,一个点代表一个人,如下所示:
![](http://upload-images.jianshu.io/upload_images/45281-2a05a8a48342af5b.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/949/format/webp)
这种图有个缺陷,就是一些相同身高的人的点会重合,并不直观,因此我们可以转换一下图形,把相同身高的人的点叠加起来,如下所示:
![](http://upload-images.jianshu.io/upload_images/45281-0147c337a6da4307.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1000/format/webp)
这样的话, 我们就能很清楚地看到这批人身高的统计情况,这种图形可以叫直方图(histogram),直方图的下端(也就是x轴)的数据是连续的,可以自己设定,从图中可以明显看到,中间的人的点数多,两边的人点数少。
再进一步,我们可以使用“分布(distribution)”这个术语来表示我们这次测量的为数据,将这些数据点的顶端用一个近似曲线连接起来,就成了下面的这个样子:
![](http://upload-images.jianshu.io/upload_images/45281-6ba5fdc345d36235.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1000/format/webp)
这种图形类似于一个钟型(bell)我们可以称它为正态分布(normal distribution),如果我们测量出来的数据是下面的这个样子,它就呈现一种指数分布(exponential distribution):
![](http://upload-images.jianshu.io/upload_images/45281-c9c7dbf957879dc0.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1000/format/webp)
直方图的特点
如果我们在测量这批人的数据时,以0.5英尺(约合30cm)为单位,也就是说,在绘制直方图时,x轴的坐标上的宽度分布是这个样子的:![](http://upload-images.jianshu.io/upload_images/45281-852e79d9a677bac1.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/982/format/webp)
![](http://upload-images.jianshu.io/upload_images/45281-1e23b8e15fc8875a.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/977/format/webp)
![](http://upload-images.jianshu.io/upload_images/45281-31668abbce340d86.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/922/format/webp)
![](http://upload-images.jianshu.io/upload_images/45281-ebfdee3f5f4b1b07.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1000/format/webp)
![](http://upload-images.jianshu.io/upload_images/45281-40d0b492bc8d7266.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1000/format/webp)
![](http://upload-images.jianshu.io/upload_images/45281-91f4537da90d2f45.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1000/format/webp)
![](http://upload-images.jianshu.io/upload_images/45281-51a23b9160ef5c32.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1000/format/webp)
直方图与柱状图的区别
直方图x轴上的组距是连续的,从上面的图形可以得知,测量的身高的不同划分是小于5,5到5.5,5.5到6,6以上。![](http://upload-images.jianshu.io/upload_images/45281-e065eed79f0a0df4.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/860/format/webp)
这张图就是一个柱状图(有人也称条形图),它的x轴是不连续的,只是一些分类变量。
二.正态分布
先看一下正态分布图形,就是上一部分中的身高分布数据,如下所示:
![](http://upload-images.jianshu.io/upload_images/45281-24619075cf2e6880.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1000/format/webp)
从图形上可以看到正态分布的特点:
- 左右对称,因此也叫钟型曲线(bell shaped curve);
- 中间凸起,两侧平缓。
![](http://upload-images.jianshu.io/upload_images/45281-1b3463e7f85487ce.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1000/format/webp)
其中,左侧绿线表示的是出生的婴儿的身高分布(英寸),右侧的划线表示的是成人身高的分布,从这两个曲线上我们可以得到这些信息:
- 婴儿的正态分布曲线比较尖锐,这表示婴儿身高比较集中,成人身高的正态分布曲线比较平缓,这表示成人身高比较分散;
- 成人身高的平均值要高于婴儿身高的平均值。
![](http://upload-images.jianshu.io/upload_images/45281-dcb8ac47ff5a0959.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1000/format/webp)
自然界的很多事物都符合正态分布,其背后的一个原理就是中心极限定理(the central limit theorem),以后的笔记会提到。
三.模型
模型,英文是指“model”。
在统计学中,模型是指对现实世界中的一些事情的抽象处理,数据模型使用一些表格,图表,公式来研究现实世界中的一些规律,例如下图就是使用一个图表和公式来表示小鼠的体重与大小的关系:
![](http://upload-images.jianshu.io/upload_images/45281-e28f40e004b72a0d.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1000/format/webp)
有时候,图形不一定是直线,也有可能是曲线,如下所示:
![](http://upload-images.jianshu.io/upload_images/45281-957f2a2497a314ef.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1000/format/webp)
四.抽样分布
下图是一个直方图,一个点表示一个人的身高:![](http://upload-images.jianshu.io/upload_images/45281-031e6e7b557b2d26.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1000/format/webp)
![](http://upload-images.jianshu.io/upload_images/45281-298bc4af365dd9b6.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1000/format/webp)
![](http://upload-images.jianshu.io/upload_images/45281-31e7f2fcb854deb1.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/989/format/webp)
![](http://upload-images.jianshu.io/upload_images/45281-5592fe9680c25b41.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/628/format/webp)
![](http://upload-images.jianshu.io/upload_images/45281-3b7b742fd939644f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/640/format/webp)
那么经过t检验,得到的p值就会很小。
如果想到得到较小的p值,这就可能要增加样本,或者是就此为止(增加样本涉及到一类错误与二类错误,这里不表)。