• 【数据分析师 Level 1 】16.回归分析


    【数据分析师 Level 1 】16.回归分析

    1.基本概念

    线性回归的出现

    当被解释变量和解释变量都为连续型,且存在线性关系时,可以采用线性回归对被解释变量进行预测。

    多元线性回归的出现是非常自然的,由于在一元线性回归中,因变量只能依赖一个自变量来解释,换一句话说,就是我们只能在一维空间中来解释世界,这是十分糟糕的,毕竟事物之间的关联是非常复杂的,只用其中一个变量来解释,总是显得那么苍白和无力。

    下面我们就来以“房价”和“客户价值”为因变量,探索一下影响他们的自变量。首先,影响房价的因素有哪些呢?

    线性回归模型

    因此,我们不难发现,在用更多变量来解释因变量,显然会更加全面、丰富、合理和科学。

    与一元线性回归类似,一个含有k个自变量的多元线性回归模型可以表示为:

    [y = eta_0 + eta_1x_1+eta_2x_2+...+eta_kx_k+epsilon ]

    其中,

    [eta_0,eta_1,eta_2,...,eta_k ]

    为模型参数

    [epsilon ]

    为误差项,用来解释不能被自变量线性关系解释的部分。

    2.基本假设

    多元线性回归的基本假设

    由于自变量增加,多元线性回归除了保留一元线性回归的5个假设之外,还新增了线性无关假设。

    • 假设1:线性关系。因变量

      [y ]

      和自变量

      [x_1,x_2,...,x_k ]

      之间存在线性关系

    • 假设2:随机抽样。我们的样本数据是来自总体的随机样本,该数据代表着假设1描述的总体

    • 假设3:期望为0。误差项

    • [epsilon ]

      是一个期望值为0的随机变量,即

      [E(epsilon) = 0 ]

    • 假设4:同方差。给定任意的解释变量

      [x_1,x_2,...,x_k ]

      [epsilon ]

      的方差

      [sigma^2 ]

      都相同的

    • 假设5:正态性。误差项

      [epsilon ]

      独立于解释变量,服从

      [N(0,sigma^2) ]

      且相互独立

    • 假设6:不存在完全共线性。在样本中没有一个自变量是常数。自变量之间不存在严格的线性关系。

    线性关系假设——线性关系检验

    线性关系检验的原理与一元线性回归基本一致。具体步骤如下:

    提出假设:

    [H_0:eta_1=eta_2=...=eta_k = 0 ]

    线性关系不显著。

    注意

    与一元线性回归最大的不同在于其原假设为所有参数同时为0.备择假设是参数不同时为0

    • 计算检验统计量

    [F = frac{frac{SSR}{k}}{frac{SSE}{(n-k-1)}}:F(k,n-k,k-1) ]

    这里k表示自变量个数。

    • 确定临界值:基于显著性水平

      [alpha ]

      设定出临界值

      [F_{alpha} ]

    • 做出决策:若

    [F>F_{alpha} ]

    拒绝

    [H_0 ]

    注意

    与一元线性回归一样,代码输出的解读主要依赖于p值。

    线性关系检验——回归系数检验

    回归系数检验的原假设为

    [H_0:eta_i = 0 ]

    即第i个自变量

    [x_i ]

    与因变量

    [y ]

    没有线性关系。检验统计量与一元线性回归一致:

    [t = frac{hat{eta_i}}{s_{hat{eta_1}}}:t(n-k-1) ]

    这里k表示自变量个数。检验决策方法与一元线性回归一致,这里不重复介绍。

    假设失效的影响:如果模型的线性关系假设不成立,这就意味着模型中可能还有

    [x^2,ln(x) ]

    等非线性情形,或者因变量无法由自变量线性表示,此时所得到的模型参数无法证实刻画数据包含的内部规律。

    假设失效的解决办法:如果自变量与因变量的关系是非线性的,则可以考虑对于自变量做

    [x_2,ln(x) ]

    等非线性变换后,再做线性回归。

    期望为0的假设

    • 假设检验方法:(图形法)可以直接绘制散点图,查看残差是否对称分布在0的两侧;(统计检验)可以用假设检验中的t检验方法,其假设为

    [H_0:E = 0 ]

    具体操作在案例中展示

    • 假设失效的影响:如果残差的期望不等于0,而等于其他的某个常数,那么这个常数就应该出现在多元线性回归的常数项内。
    • 假设失效解决办法:如果失效,考虑是否强制将常数项设置为0,或考虑异常值问题。
    同方差假设

    假设检验方法:(图形法)对残差以及因变量的拟合值作图

    如果没有异方差,那么残差和因变量拟合值构成的散点应该是完全随机的,其趋势线应该是几乎是水平的。上图中间的趋势线存在弯曲,即存在一定的异方差。

    除了作图,我们也可以选择Breusch-Pagan检验,注意该检验的原假设是同方差,备择假设是异方差,这样读者根据输出的p值就可以直观判断了

    假设失效的影响:如果误差是异方差的,那么OLS估计的标准误差将不可靠

    假设失效解决办法:克服异方差性的影响,我们可以尝试对因变量做一些非线性变换,如取对数、取平方根等等

    正态性假设

    假设检验方法:(图形法)做QQ图

    QQ图的解读十分简单,如果散点在直线上或者直线附近,那么我们就可以认为数据是正态分布的,否则就是任务不是正态分布。

    对于正态分布的统计检验,我们可以选择KS检验(Kolmogorov-Smirnov test)其原假设:数据是正态分布的,这样读者可以直接根据输出的P值来对检验结果进行分析。

    假设失效的影响:如果误差项不是正态分布的,则OLS估计的标准差将不可靠。然而对于正态性假设对于线性回归的重要性,目前各方还有一些有价值的观点。

    假设失效解决办法:关注样本中两端的异常值是否合理,如异常值不合理,可以考虑删除异常值,也可以尝试对变量做非线性变换。

    注意

    事实上该假设中包含了残差的独立性,即没有自相关。自相关可以通过DW检验来分析,DW的取值落在(0,4)内,DW=2意味着完全没有自相关性,如果0<DW<1表明残差间有较强的正相关性

    [1 leq DW <2 ]

    表明残差间较弱的正相关性

    [2 < DW leq 3 ]

    表明残差间有较弱的负相关性

    [3<DW<4 ]

    表明残差间有较强的负相关性。

    横截面和时间序列数据在回归建模上的差异

    横截面是指在同一时间平面上的数据,例如2013年各个上市公司的财报数据,如果研究其不同变量之间的线性关系,可以用多元线性回归模型。但是如果数据包含时间趋势,例如2001-2018年全国各个省市的宏观经济指标数据,如果要研究不同宏观指标之间的线性影响,就要用面板回归模型了(计量模型的一种)。

    3.参数估计

    多元线性回归的参数估计

    与一元线性回归一样,多元线性的回归仍然使用最小二乘法来估计,即

    [minF(hateta_0,hateta_1,...,hateta_k) = min sum^n_{i=1}(y_i-hat{y_i})^2 = minsum^n_{i=1}epsilon_i^2 ]

    也就是使得因变量样本值得到因变量估计值之间的2次距离总和最小。由于带估计参数有k+1个,因此我们在计算时会用到k+1个方程构造的方程组。

    [left{ egin{array}{c} frac{partial F}{partial eta_0}|_{eta_0=hat eta_0} = 0 \ frac{partial F}{partial eta_1}|_{eta_1=hat eta_1} = 0 \ ...\ frac{partial F}{partial eta_k}|_{eta_k=hat eta_k} = 0 \ end{array} ight. ]

    通过方程组求解可以得到各个参数的参数估计

    4.判定系数

    修正的R^2

    修正的R^2(Adjusted R-squared),又叫做修正多重判断系数。R2倾向于乐观估计线性回归的拟合度,它会随着模型中包含的自变量数量的增加而增加,而不管这自变量本身是否真的有效,这显然是不合理的。修正的R2能够有效的改进这种对于拟合度的高估,如果在模型中存在不重要的变量,即这些变量不能有效的改进模型,那么修正的R^2将会降低。

    修正的R^2的计算公式等于

    [R^2_0 = 1-(1-R^2) imes frac{n-1}{n-k-1} ]

    其中n为样本数,k为自变量个数,事实上我们发现在其他值不变的情况下,上述公式中的k越大,则修正的R^2越小,这就意味着k类似于一个惩罚项,避免因为无效的自变量而高估了拟合度。

    例题精讲

    1.工人月工资(元)依劳动生产率(千元)变化的回归直线方程为y=60+90x,下列判断正确的是()

    A.劳动生产率为1000元时,工资为50元

    B.劳动生产率提高1000元时,工资提高150元

    C.劳动生产率提高1000元时,工资提高90元

    D.劳动生产率为1000元时,工资为90元

    答案:C

    解析:自己算

    2.以下哪个假设不是线性回归分析的前提假设?

    A.解释变量之间必须严格独立

    B.解释变量之间不能强线性相关

    C.扰动项独立同分布

    D.扰动项服从正态分布

    答案:A

    解析:回归分析的前提假设中,包含解释变量之间非线性相关、扰动项独立同分布,扰动项服从正态分布

  • 相关阅读:
    HDU 4825 字典树
    HDU4287 字典树
    HDU 3973 AC's String 字符串哈希
    HDU5296 Annoying problem(LCA)
    Gym 100712L Alternating Strings II(单调队列)
    数据结构专题
    HDU5033 Building(单调栈)
    HDU2888 Check Corners(二维RMQ)
    HDU 4123 Bob’s Race(RMQ)
    HDU3530 Subsequence(单调队列)
  • 原文地址:https://www.cnblogs.com/pandaboy1123/p/14296448.html
Copyright © 2020-2023  润新知