前言
本小节中的细小知识点很多,需要认真学习,仔细体会。
基础梳理
频数分布表,频率分布表
注意公式及其变形应用,(频率=cfrac{频数}{样本容量});(频数=频率 imes 样本容量);
频率分布折线图和总体密度曲线
茎叶图
利用茎叶图既可以对数据的平均值和方差做定量计算,也可以根据样本数据的分散与集中程度对数据的平均值和方差做定性分析。
相关计算
样本数据的数字特征计算:
比如给定一组样本数据(2,2,4,4,4);
则①众数为4;②中位数为4;
③平均数为(ar{x} =cfrac{2+2+4+4+4}{5}=2 imescfrac{2}{5}+4 imescfrac{3}{5});
数据与其对应的频率乘积,再求和;
④方差为(s^2=cfrac{1}{5}[(2-3.2)^2 imes 2+(4-3.2)^2 imes 3]=(2-3.2)^2 imes cfrac{2}{5}+(4-3.2)^2 imes cfrac{3}{5});
数据与平均值的差的平方与频率乘积,再求和;
⑤标准差(s=sqrt{(2-3.2)^2 imes cfrac{2}{5}+(4-3.2)^2 imes cfrac{3}{5}});
频率分布直方图中的数字特征的计算
当一组数据经过加工整理成频率分布直方图后,数据信息会有所损失,所以计算数据的数字特征有一定的难度。
①众数:直方图中最高矩形的中点横坐标;
②中位数:频率分布直方图频率和(面积和)的一半处所对应的横坐标,即面积等分线所对应的横坐标;
③平均数:每个矩形的分组的中点值乘以每个对应矩形的面积再求和;
④方差:每个矩形的分组的中点值与平均值的差的平方与频率乘积,再求和;
⑤标准差:方差的算术平方根;
用样本估计总体的两层含义
①用样本的频率分布估计总体的频率分布;
②用样本的基本数字特征估计总体的基本数字特征;
频率分布直方图的特点
①直方图中相邻两横坐标之差表示组距,纵轴表示(cfrac{频率}{组距}),(频率=cfrac{频率}{组距} imes 组距),
②频率分布直方图中各小长方形的面积(频率)之和为(1),各小长方形高之比也就是频率比。
③频率分布表和频率分布直方图是一组数据频率分别的两种形式,前者准确,后者直观。
平均数的计算技巧
比如计算数据(515,521,527,531,532,536,543,548,558,559)的平均数。
(ar{x}=500+cfrac{15+21+27+31+32+36+43+48+58+59}{10}=537);
(ar{x}=540+cfrac{-25-19-13-9-8-4+3+8+18+19}{10}=540+cfrac{-30}{10}=537);
给定频数分布表求平均数
思路一:每个矩形的分组的中点值乘以频数再求和,最后除以样本容量;思路二:转化为频率分布表再计算;
分组 | 15~25 | 25~35 | 35~45 | 45~55 | 55~65 |
---|---|---|---|---|---|
频数 | (5) | (5) | (25) | (15) | (10) |
频率 | (cfrac{5}{60}) | (cfrac{5}{60}) | (cfrac{25}{60}) | (cfrac{15}{60}) | (cfrac{10}{60}) |
如上表,(ar{x}=cfrac{20 imes 5+30 imes 5+40 imes 25+50 imes 15+60 imes 10}{60})
(=20 imes cfrac{5}{60}+30 imes cfrac{5}{60}+40 imes cfrac{25}{60}+50 imes cfrac{15}{60}+60 imes cfrac{10}{60})
给定频率分布表求平均数:
如果数据(x_1),(x_2),(cdots),(x_n)在样本中各自出现的频率分别是(p_1),(p_2),(cdots),(p_n),则(ar{x}) (=x_1p_1) (+x_2p_2) (+cdots+) (x_np_n);在频率分布直方图中,(x_i)通常取其所在组的中间值。
平均数、方差、标准差的性质推广
如果一组样本数据(x_1),(x_2),(cdots),(x_n),其平均数为(ar{x}),方差为(s^2),标准差为(s),
则样本数据(ax_1+b),(ax_2+b),(cdots),(ax_n+b),其平均数为(aar{x}+b),方差为(a^2cdot s^2),标准差为(acdot s),
典例剖析
分析:考查一组数据的数字特征的含义的理解;
解析:选(A),将一组数据排序后,去掉两端的极端值,不会影响最中间的中位数[奇数个数据时为最中间的一个,偶数个数据时为最中间的两个数据的平均数],但一定会影响平均数[数据的平均水平],方差[数据偏离平均水平的程度],和极差[数据的活动范围],故选(A)。
分析:原样本数据的相关数字特征如下:
(x_1,x_2,cdots,x_{10})的平均数为(ar{x}=cfrac{x_1+x_2+cdots+x_{10}}{10});
其方差为(s_1^2=cfrac{1}{10}[(x_1-ar{x})^2+(x_2-ar{x})^2+cdots+(x_{10}-ar{x})^2]);
其标准差为(s_1=sqrt{cfrac{1}{10}[(x_1-ar{x})^2+(x_2-ar{x})^2+cdots+(x_{10}-ar{x})^2]}=8);
则新样本数据的相关数字特征如下:
(2x_1-1,2x_2-1,cdots,2x_{10}-1)的平均数为
(ar{x'}=cfrac{(2x_1-1)+(2x_2-1)+cdots+(2x_{10}-1)}{10}=2ar{x}-1);
【引申】
①如果数据(x_1),(x_2),(cdots),(x_n)的平均数为(ar{x}),则数据(ax_1+b),(ax_2+b),(cdots),(ax_n+b)的平均数为(aar{x}+b);
其方差为(s_2^2=cfrac{1}{10}[(2x_1-1-ar{x'})^2+(2x_2-1-ar{x'})^2+cdots+(2x_{10}-1-ar{x'})^2]);
(=cfrac{2^2}{10}[(x_1-ar{x})^2+(x_2-ar{x})^2+cdots+(x_{10}-ar{x})^2]=2^2cdot s_1^2)
【引申】
②如果数据(x_1),(x_2),(cdots),(x_n)的方差为(s^2),则数据(ax_1+b),(ax_2+b),(cdots),(ax_n+b)的方差为(a^2cdot s^2);
其标准差为(s_2=sqrt{cfrac{1}{10}[(2x_1-1-ar{x'})^2+(2x_2-1-ar{x'})^2+cdots+(2x_{10}-1-ar{x'})^2]});
(=sqrt{cfrac{1}{10}[(2x_1-2ar{x})^2+(2x_2-2ar{x})^2+cdots+(2x_{10}-2ar{x})^2]})
(=sqrt{cfrac{2^2}{10}[(x_1-ar{x})^2+(x_2-ar{x})^2+cdots+(x_{10}-ar{x})^2]})
(=2sqrt{cfrac{1}{10}[(x_1-ar{x})^2+(x_2-ar{x})^2+cdots+(x_{10}-ar{x})^2]})
(=2cdot s_1=2 imes8=16),故选(C)。
【引申】
③如果数据(x_1),(x_2),(cdots),(x_n)的标准差为(s),则数据(ax_1+b),(ax_2+b),(cdots),(ax_n+b)的标准差为(acdot s),
设样本数据(x_1),(x_2),(cdots),(x_{2018})的方差是4,若(y_i=2x_i-1(i=1,2,cdots,2018)),则(y_1),(y_2),(cdots),(y_{2018})的方差是____________。
分析:其方差为(s^2=2^2cdot 4=16)。
考点:频率分布直方图,众数、中位数、平均数、方差
分析:以上图为例,
- 求众数:
“旧养殖法”的众数为(47.5);“新养殖法”的众数为(52.5);
- 求中位数:
“旧养殖法”的中位数先判断其大概位置,由于(25-50)之间的面积和为(0.62),25-45之间的面积和为(0.42),
故中位数一定位于(45-50)之间,设中位数为(x),则(0.42+(x-45) imes0.04=0.50),求得(x=47),即中位数为(47)。
- 求平均数:比如“旧养殖法”的平均数的计算
(ar{x}=27.5 imes5 imes0.012+32.5 imes5 imes0.014+37.5 imes5 imes0.024)
(+42.5 imes5 imes0.034+47.5 imes5 imes0.040+52.5 imes5 imes0.032)
(+57.5 imes5 imes0.020+62.5 imes5 imes0.012+67.5 imes5 imes0.012)
(=47.1);
“新养殖法”的平均数的计算
(ar{y}=37.5 imes5 imes0.004+42.5 imes5 imes0.020+47.5 imes5 imes0.044)
(+52.5 imes5 imes0.068+57.5 imes5 imes0.046)
(+62.5 imes5 imes0.010+67.5 imes5 imes0.008)
(=52.35);
求方差:比如“新养殖法”的方差计算
(S^2=(37.5-52.35)^2 imes 0.004 imes 5+(42.5-52.35)^2 imes 0.020 imes 5+(47.5-52.35)^2 imes 0.044 imes 5)
(+(52.5-52.35)^2 imes 0.068 imes 5+(57.5-52.35)^2 imes 0.046 imes 5)
(+(62.5-52.35)^2 imes 0.010 imes 5+(67.5-52.35)^2 imes 0.008 imes 5)
(=?)
为了考查某校各班参加课外书法小组的人数,从全校随机抽取(5)个班级,把每个班级参加该小组的人数作为样本数据。已知样本平均数为7,样本方差为4,且样本数据各不相同,则样本数据中的最大值为【】
法1:不妨设这五个数据分别为(x_1<x_2<x_3<x_4<x_5),则有(cfrac{x_1+x_2+x_3+x_4+x_5}{5}=7),(s^2=cfrac{1}{5}[(x_1-7)^2+(x_2-7)^2+(x_3-7)^2+(x_4-7)^2+(x_5-7)^2]=4),
则((x_1-7)^2+(x_2-7)^2+(x_3-7)^2+(x_4-7)^2+(x_5-7)^2=20),
很显然当最大数据(x_5=12)时,不满足;
再代入(x_5=11),得到((x_1-7)^2+(x_2-7)^2+(x_3-7)^2+(x_4-7)^2=4),
由于样本数据互不相同,这是不可能成立的;
若样本数据为(4,6,7,8,10),代入验证知①②式均成立,
此时样本数据中的最大值为 10.故答案选(B).
法2:不妨设这五个数据分别为(x_1<x_2<x_3<x_4<x_5),则有(cfrac{x_1+x_2+x_3+x_4+x_5}{5}=7),(s^2=cfrac{1}{5}[(x_1-7)^2+(x_2-7)^2+(x_3-7)^2+(x_4-7)^2+(x_5-7)^2]=4),
则((x_1-7)^2+(x_2-7)^2+(x_3-7)^2+(x_4-7)^2+(x_5-7)^2=20),
要使其中一个达到最大,这五个数必须是关于(0)对称分布的,就像“最小二乘法”中要求样本点要均匀分布在回归直线的两侧一样,
而(9+1+0+1+9=20),也就是((-3)^2+(-1)^2+0^2+1^2+3^2=20),
所以五个班级参加的人数分别为(4,6,7,8,10),故最大数字为10。
气象意义上从春季进入夏季的标志为“连续5天的日平均气温均不低于(22^{circ}C)”。现有甲、乙、丙三地连续5天的日平均气温的记录数据(数据都是正整数,单位:(^{circ}C))
①甲地:5个数据的中位数为24,众数为22;
②乙地:5个数据的中位数为27,均值为24;
③丙地:5个数据中有一个是32,均值为26,方差为10.8;
则满足进入夏季标志的地区有【】个。
分析:对甲地而言,由于中位数为24,众数为22;故可以将适合题意的5个数据由小到大排序为22,22,24,25,26;其中前三个数据不能变化,后两个数据可以变化,但其必须都大于24,且不能相同,故甲地的数据满足进入夏季的条件;
对乙地而言,由于中位数为27,均值为24;故可以将适合题意的5个数据由小到大排序为18,19,27,28,28;显然其不满足进入夏季的条件;
对丙地而言,不妨设32为最大的数据,由于均值为26,故尝试5个数据为22,22,22,22,32;计算得到均值为24,那么前四个数据中若有小于22的,均值会小于24,故我们调整前4个数据,显然都应该大于22,此时如我们调整的恰当,必然会得到其均值为26,方差为10.8;故丙地的数据也满足进入夏季的条件;
综上所述,满足进入夏季标志的地区有2个,故选(C)。