步骤一:令钢材消费量为因变量Y,国民收入为自变量X,根据表中的数据绘制散点图(如上图所示)。
绘制散点图的目的主要是利于直观的选择数学回归模型。
步骤二:选择恰当的数学回归模型。根据本例中的散点图,显然钢材消费量与国民收入呈现一种统计学意义上的线性相关关系。因此我们选用线性相关模型做为总体 回归模型,即 Y=α+β*X+ε(其中,αβ为总体回归参数,是理论上总体的值,实际上是不知道的,只能通过样本数据得到它们的估计值,分别用a,b 来表示;ε为随机项,表示其它影响因素。)
步骤三:建立一元线性样本回归方程,并利用最小二乘法估计参数α,β的值即a,b 的值。(a,b称为回归系数,其中a为拟合直线的截矩,b 为直线的斜率可以利用EXCEL工具进行)
a= - 460.528180
b= 0.98395935
即回归方程为:Y= -460.5282+0.9840 X (注意,Y表示估计值,Y表示实际值)
步骤四:对模型进行各种检验(可以应用EXCEL工具,计算结果见后结果报告)
1、t 检验——对回归系数 b进行显著性检验
由于回归系数b 只是总体回归参数的β的一个估计值,通过对b 检验可以检验β的值与0是否存在差显著性差异。如果β=0,则意味着回归方程中没有X项,说明Y不随X的变动而变动,因此Y与X之间不存在线性关系,我们的线性模型的假设则不成立;反之,若β≠0,则说明Y与X之间存在线性关系,我们的假设成立。我们通常用对b 进行 t 检验来验证Y与X是否具有真实的线性关系。即计算b的t值tb, tb=b/Sb, 其中Sb 为b 的标准差,再根据预先设定的显著性水平u(通常u=0.05)和自由度(d=n-2),查t 分布表得到一个临界值tu/2, 若|tb|>tu/2, 则说明回归系数β=0的可能性小于是0.05,可以得出β≠0的结论,即Y与X呈现线性关系。反之,则结论相反。经计算得到:
|tb|= 19.78057827 tu/2= 2.131449536
因为|tb|>tu/2,所以回归系数b的t 检验通过,表明回归系数b是显著的,即变量国民收入能够解释变量钢材消费量的变化。
2、F检验——对回归方程的整体显著性的检验
同样是对Y与X是否显现真实的线性关系的检验,是以方差分析方法为基础,通过计算回归方程的F统计量,并根据给定的显著性水平u(通常u=0.05)和两个自由度 (d1=1,d2=n-2),查F分布表,得到临界值Fu, 若F>Fu,意味着回归模型中的一次项是必不可少的。这时表明回归方程的回归效果是显著的。经计算得到:"
F统计量= 391.2712765 Fu= 4.543077123
因为F>Fu,所以F检验通过,表明回归方程的回归效果显著
(F 检验的必要性)
假设T统计量独立,每次只检验一个系数,则:
它使得零假设为真时拒绝零假设的概率为9.75%。与5%显著性水平面相比,由于拒绝域增加,这种方式可以经常拒绝零假设,这使得在零假设下的拒绝域不等于想要的显著性水平;如果回归因子相关,情况更复杂。因此,需要一种新方法在零假设下对所有斜率系数的联合假设进行F检验。"
3、D-W检验——是残差项是否自相关的检验
如果残差项不互相独立,即存在相关关系,则不能表明回归模型中的变量Y与X之前的真实变动关系。因为线性回归中的一个基本假设就是随机项必须互相独立,否则在计算tb 时会使得变大(原因在于Sb变小),从而夸大了t检验及F检验的统计性,使得t检验及F检验不再有效。计算D-W统计量,根据给定的显著性水平u(通常u=0.05),自变量的个数和样本数据的个数n,查D-W表,得到下限值dl和上限值du,只有当du<D-W<4-du时,才能说明随机项之间不存在自相关,从而检验通过。(D-W统计量的计算过程见下面同颜色的部分)"
D-W统计量= ∑(ei-ei-1)2/∑ei2= 2.032624524 du(1,17)=1.38(查D-W统计表获得)
因为: du<D-W统计量<4-du, 所以D-W检验通过,表明残差序列无自相关,从而进一步说明t检验与F检验显著性是可靠的。
4、R2(可决系数)检验——拟合程度的测定,即变量Y的各个观测值聚集在回归直线周围的紧密程度,用以表明变量X在多大程度上解释了变量Y。这一检验用来测定回归直线对各观测值点的拟合程度。 r2 的值介于0与1之前,越大说明拟合程度越高。一般大于70%时拟合程度已非常好。
R2= 0.963078857
R2接近于1,说明回归直线对样本数据点的拟合程度很高,检验通过
5、估计Y的标准误差。标准误差越小越好,表明了数据点与回归直线的离散程度。
标准误差= 135.4581771
因为本例标准误差远小于变量Y实测值的平均数,因此认为可以通过。
本例中,经过计算各项统计检验通过,说明回归方程可以用来表述钢材消费量与国民收入之间的回归关系。
步骤五:利用回归方程进行预测