原文链接:http://tecdat.cn/?p=6274
在这篇文章中,我们将看看如何在实践中使用R 。为了说明,我们首先从线性回归模型中模拟一些简单数据,其中残差方差随着协变量的增加而急剧增加:
该代码从给定X的线性回归模型生成Y,具有真正的截距0和真实斜率2.然而,残差标准差已经生成为exp(x),使得残差方差随着X的增加而增加。可以直观地看到这个效果:
这使
模拟Y对X数据的图,其中残差方差随着X的增加而增加
在这个简单的情况下,视觉上清楚的是,对于较大的X值,残差方差要大得多,因此违反了“基于模型”的标准误差所需的关键假设之一。无论如何,如果我们像往常一样拟合线性回归模型,让我们看看结果是什么:
这表明我们有强有力的证据反对Y和X独立的零假设。为了便于比较,我们注意到X效果的标准误差是0.311。
接下来,我 然后将先前安装的lm对象传递给包中的函数,该函数计算 方差估计值:
得到的矩阵是两个模型参数的估计方差协方差矩阵。因此,对角线元素是估计的方差(平方标准误差)。因此,我们可以通过采用这些对角元素和平方根来计算夹心标准误差:
因此,X系数的 标准误差为0.584。这与先前基于模型的标准误差0.311形成对比。因为此处残差方差不是恒定的,所以基于模型的标准误差低估了估计的可变性,并且夹心标准误差对此进行了校正。让我们看看它对置信区间和p值有何影响。为此,我们使用估计量渐近(在大样本中)正态分布的结果。首先,要获得置信区间限制,我们可以使用:
因此,X系数的95%置信区间限制为(0.035,2.326)。为了找到p值,我们可以首先计算z-统计量(系数除以它们相应的标准误差),并将平方z-统计量与一个自由度上的卡方分布进行比较:
我们现在有一个p值表示Y对X的依赖性为0.043,而早期从lm为0.00025得到的p值。