【数据分析师 Level 1 】16.回归分析

【数据分析师 Level 1 】16.回归分析
【数据分析师 Level 1 】16.回归分析

1.基本概念

线性回归的出现

当被解释变量和解释变量都为连续型，且存在线性关系时，可以采用线性回归对被解释变量进行预测。

多元线性回归的出现是非常自然的，由于在一元线性回归中，因变量只能依赖一个自变量来解释，换一句话说，就是我们只能在一维空间中来解释世界，这是十分糟糕的，毕竟事物之间的关联是非常复杂的，只用其中一个变量来解释，总是显得那么苍白和无力。

下面我们就来以“房价”和“客户价值”为因变量，探索一下影响他们的自变量。首先，影响房价的因素有哪些呢？

线性回归模型

因此，我们不难发现，在用更多变量来解释因变量，显然会更加全面、丰富、合理和科学。

与一元线性回归类似，一个含有k个自变量的多元线性回归模型可以表示为：

[y = eta_0 + eta_1x_1+eta_2x_2+...+eta_kx_k+epsilon ]
其中，

[eta_0,eta_1,eta_2,...,eta_k ]
为模型参数

[epsilon ]
为误差项，用来解释不能被自变量线性关系解释的部分。

2.基本假设

多元线性回归的基本假设

由于自变量增加，多元线性回归除了保留一元线性回归的5个假设之外，还新增了线性无关假设。
- 假设1：线性关系。因变量
  
  [y ]
  和自变量
  
  [x_1,x_2,...,x_k ]
  之间存在线性关系
- 假设2：随机抽样。我们的样本数据是来自总体的随机样本，该数据代表着假设1描述的总体
- 假设3：期望为0。误差项
- [epsilon ]
  是一个期望值为0的随机变量，即
  
  [E(epsilon) = 0 ]
- 假设4：同方差。给定任意的解释变量
  
  [x_1,x_2,...,x_k ]
  [epsilon ]
  的方差
  
  [sigma^2 ]
  都相同的
- 假设5：正态性。误差项
  
  [epsilon ]
  独立于解释变量，服从
  
  [N(0,sigma^2) ]
  且相互独立
- 假设6：不存在完全共线性。在样本中没有一个自变量是常数。自变量之间不存在严格的线性关系。
线性关系假设——线性关系检验
线性关系检验的原理与一元线性回归基本一致。具体步骤如下:

提出假设：

[H_0:eta_1=eta_2=...=eta_k = 0 ]
线性关系不显著。

注意

与一元线性回归最大的不同在于其原假设为所有参数同时为0.备择假设是参数不同时为0
- 计算检验统计量
[F = frac{frac{SSR}{k}}{frac{SSE}{(n-k-1)}}:F(k,n-k,k-1) ]
这里k表示自变量个数。
- 确定临界值：基于显著性水平
  
  [alpha ]
  设定出临界值
  
  [F_{alpha} ]
- 做出决策：若
[F>F_{alpha} ]
拒绝

[H_0 ]
注意

与一元线性回归一样，代码输出的解读主要依赖于p值。
线性关系检验——回归系数检验

回归系数检验的原假设为

[H_0:eta_i = 0 ]
即第i个自变量

[x_i ]
与因变量

[y ]
没有线性关系。检验统计量与一元线性回归一致：

[t = frac{hat{eta_i}}{s_{hat{eta_1}}}:t(n-k-1) ]
这里k表示自变量个数。检验决策方法与一元线性回归一致，这里不重复介绍。

假设失效的影响：如果模型的线性关系假设不成立，这就意味着模型中可能还有

[x^2,ln(x) ]
等非线性情形，或者因变量无法由自变量线性表示，此时所得到的模型参数无法证实刻画数据包含的内部规律。

假设失效的解决办法：如果自变量与因变量的关系是非线性的，则可以考虑对于自变量做

[x_2,ln(x) ]
等非线性变换后，再做线性回归。

期望为0的假设
- 假设检验方法：（图形法）可以直接绘制散点图，查看残差是否对称分布在0的两侧；（统计检验）可以用假设检验中的t检验方法，其假设为
[H_0:E = 0 ]
具体操作在案例中展示
- 假设失效的影响：如果残差的期望不等于0，而等于其他的某个常数，那么这个常数就应该出现在多元线性回归的常数项内。
- 假设失效解决办法：如果失效，考虑是否强制将常数项设置为0，或考虑异常值问题。
同方差假设

假设检验方法：（图形法）对残差以及因变量的拟合值作图

如果没有异方差，那么残差和因变量拟合值构成的散点应该是完全随机的，其趋势线应该是几乎是水平的。上图中间的趋势线存在弯曲，即存在一定的异方差。

除了作图，我们也可以选择Breusch-Pagan检验，注意该检验的原假设是同方差，备择假设是异方差，这样读者根据输出的p值就可以直观判断了

假设失效的影响：如果误差是异方差的，那么OLS估计的标准误差将不可靠

假设失效解决办法：克服异方差性的影响，我们可以尝试对因变量做一些非线性变换，如取对数、取平方根等等

正态性假设

假设检验方法：（图形法）做QQ图

QQ图的解读十分简单，如果散点在直线上或者直线附近，那么我们就可以认为数据是正态分布的，否则就是任务不是正态分布。

对于正态分布的统计检验，我们可以选择KS检验（Kolmogorov-Smirnov test）其原假设：数据是正态分布的，这样读者可以直接根据输出的P值来对检验结果进行分析。

假设失效的影响：如果误差项不是正态分布的，则OLS估计的标准差将不可靠。然而对于正态性假设对于线性回归的重要性，目前各方还有一些有价值的观点。

假设失效解决办法：关注样本中两端的异常值是否合理，如异常值不合理，可以考虑删除异常值，也可以尝试对变量做非线性变换。

注意

事实上该假设中包含了残差的独立性，即没有自相关。自相关可以通过DW检验来分析，DW的取值落在（0，4）内，DW=2意味着完全没有自相关性，如果0<DW<1表明残差间有较强的正相关性

[1 leq DW <2 ]
表明残差间较弱的正相关性

[2 < DW leq 3 ]
表明残差间有较弱的负相关性

[3<DW<4 ]
表明残差间有较强的负相关性。

横截面和时间序列数据在回归建模上的差异

横截面是指在同一时间平面上的数据，例如2013年各个上市公司的财报数据，如果研究其不同变量之间的线性关系，可以用多元线性回归模型。但是如果数据包含时间趋势，例如2001-2018年全国各个省市的宏观经济指标数据，如果要研究不同宏观指标之间的线性影响，就要用面板回归模型了（计量模型的一种）。

3.参数估计

多元线性回归的参数估计

与一元线性回归一样，多元线性的回归仍然使用最小二乘法来估计，即

[minF(hateta_0,hateta_1,...,hateta_k) = min sum^n_{i=1}(y_i-hat{y_i})^2 = minsum^n_{i=1}epsilon_i^2 ]
也就是使得因变量样本值得到因变量估计值之间的2次距离总和最小。由于带估计参数有k+1个，因此我们在计算时会用到k+1个方程构造的方程组。

[left{ egin{array}{c} frac{partial F}{partial eta_0}|_{eta_0=hat eta_0} = 0 \ frac{partial F}{partial eta_1}|_{eta_1=hat eta_1} = 0 \ ...\ frac{partial F}{partial eta_k}|_{eta_k=hat eta_k} = 0 \ end{array} ight. ]
通过方程组求解可以得到各个参数的参数估计

4.判定系数

修正的R^2

修正的R^2(Adjusted R-squared)，又叫做修正多重判断系数。R^{2倾向于乐观估计线性回归的拟合度，它会随着模型中包含的自变量数量的增加而增加，而不管这自变量本身是否真的有效，这显然是不合理的。修正的R}2能够有效的改进这种对于拟合度的高估，如果在模型中存在不重要的变量，即这些变量不能有效的改进模型，那么修正的R^2将会降低。

修正的R^2的计算公式等于

[R^2_0 = 1-(1-R^2) imes frac{n-1}{n-k-1} ]
其中n为样本数，k为自变量个数，事实上我们发现在其他值不变的情况下，上述公式中的k越大，则修正的R^2越小，这就意味着k类似于一个惩罚项，避免因为无效的自变量而高估了拟合度。

例题精讲

1.工人月工资（元）依劳动生产率（千元）变化的回归直线方程为y=60+90x，下列判断正确的是（）

A.劳动生产率为1000元时，工资为50元

B.劳动生产率提高1000元时，工资提高150元

C.劳动生产率提高1000元时，工资提高90元

D.劳动生产率为1000元时，工资为90元

答案：C

解析：自己算

2.以下哪个假设不是线性回归分析的前提假设？

A.解释变量之间必须严格独立

B.解释变量之间不能强线性相关

C.扰动项独立同分布

D.扰动项服从正态分布

答案：A

解析：回归分析的前提假设中，包含解释变量之间非线性相关、扰动项独立同分布，扰动项服从正态分布
相关阅读:
HDU 4825 字典树
 HDU4287 字典树
 HDU 3973 AC's String 字符串哈希
 HDU5296 Annoying problem(LCA)
Gym 100712L Alternating Strings II（单调队列）
数据结构专题
 HDU5033 Building(单调栈)
HDU2888 Check Corners（二维RMQ）
HDU 4123 Bob’s Race（RMQ）
HDU3530 Subsequence（单调队列）
原文地址：https://www.cnblogs.com/pandaboy1123/p/14296448.html

【数据分析师 Level 1 】16.回归分析

【数据分析师 Level 1 】16.回归分析

1.基本概念

线性回归的出现

线性回归模型

2.基本假设

多元线性回归的基本假设

线性关系假设——线性关系检验

线性关系检验——回归系数检验

同方差假设

正态性假设

横截面和时间序列数据在回归建模上的差异

3.参数估计

多元线性回归的参数估计

4.判定系数

例题精讲