参考了知乎上的答案:胡阿福 https://www.zhihu.com/question/26419030/answer/7220207
假设你叫李三,你开一个猪脚店,你希望知道你每天卖出去多少碗猪脚,一般的思路是说,我记录30天每天卖多少,然后平均数得到一天卖100碗,ok,任务完成,这就是你想知道的答案。
然而,事实上,由于你样本量过小或者有极端值等等情况,使得你这个答案,和实际情况不太一致,你准备了100碗,结果今天有110个人来买,找谁哭去? 这个时候,你就想,嗯,我应该指定一个范围,聪明!统计学家也这样想,那么这个范围怎么算,就是这里说的置信区间。
如果你猪脚店的均值100,方差30,那么标准误就是5.5,这时你的范围就是100-Za*30/5.5至100+Za*30/5.5之间,这个a就是置信系数,所谓95%的置信区间,就是在正态分布中,这个值是1.96,也就是算出来100-1.96*5.5至100+1.96*5.5之间,也就是89至111之间,嗯,对啦,李老板你就准备这个数就好啦~
什么,你说店里今天卖了112碗,哼,才不是我算错呢,是因为这个范围发生的可能性是95%啊,也就是说,出现在这个范围的可能性并不是100%呢~
李老板内心os:你tm在逗我?再说这么大范围我怎么备货?
想把范围缩小?没问题,把z变小好啦,不过事先声明z越小,这个a越小,也就是说,这个范围发生的概率就小啦~完全可以改,那,发生概率不到30%你不要怪我哟~
综上,置信区间其实是对真实情况估计的结果。重点是在于这个置信水平,置信水平越大,也就是说越可能包含真实结果,为了保证结果被包含,这个范围就越宽泛。
那是不是一定要95%?
不绝对,95%只是统计学上的约定俗成。能改,回看上上一段,你要冒着结果并不能大概率正确的风险~ 上述的解释很通俗地解释了置信区间和95%置信水平,其中关键点在于,根据置信区间算出来的结果只是一个接近正确答案的可能值(范围),他有95%(置信水平)的可能性是真的。