• 量化投资学习笔记16——回归分析:多元线性回归


    理论模型 y = β0 + β1x1 + β2x2 + … + βpxp + ε
    意义与一元线性回归相同。
    E(y) = E(β0 + β1x1 + β2x2 + … + βpxp + ε) =>
    y = β0 + β1x1 + β2x2 + … + βpxp
    列线性方程组
    y1 = β0 + β1x11 + β2x12 + … + βpx1p + ε1
    y2 = β0 + β1x21 + β2x22 + … + βpx2p + ε2
    ……
    yn = β0 + β1xn1 + β2xn2 + … + βpxnp + εn
    写成矩阵形式
    y = [y1, y2, …, yn]'
    β = [β1, β2, …, βn]'
    ε = [ε1, ε2, …, εn]'
    以此类推。
    矩阵形式为y = βx + ε
    参数估计:最小二乘法
    与一元线性回归类似。
    参数估计:最大似然估计
    模型检验等也与一元线性回归类似。
    由于有多个自变量,其单位和取值相差可能很大,要进行标准化。方法是进行中心化,将原点放到样本中心。
    相关矩:相当于一元线性回归的相关系数。
    下面实操,用mtcars数据集,研究油耗与哪些因素有关?
    建模思路:
    确定对因变量可能有影响的自变量。
    假设自变量与因变量呈线性关系,建立线性回归模型。
    对模型进行评估和检验
    调整优化模型
    判断模型中是否存在多重共线性,有则处理
    利用回归方程进行预测,并利用预测的残差分析模型的假设。
    下面实操

     data = pd.read_csv("mtcars.csv")
     print(data.head(), data.describe(), data.columns)
     col = data.columns
     print(col[1], col[2:].values)
     Y = data[col[1]]
     X = data[col[2:].values]
     print(X, Y)
     
     X = sm.add_constant(X)
     print(X.head())
     model = sm.OLS(Y, X).fit()
     print(model.summary())
    

    耗油量为因变量,其余变量为自变量,做多元线性回归。结果为:
    OLS Regression Results =====================================Dep. Variable: mpg
    R-squared: 0.869 Model: OLS
    Adj. R-squared: 0.807 Method: Least Squares
    F-statistic: 13.93 Date: Sat, 15 Feb 2020
    Prob (F-statistic): 3.79e-07 Time: 23:19:36
    Log-Likelihood: -69.855
    No. Observations: 32 AIC: 161.7
    Df Residuals: 21 BIC: 177.8
    Df Model: 10 Covariance Type: nonrobust ===================================== coef std err t P>|t| [0.025 0.975]

    const 12.3034 18.718 0.657 0.518 -26.623 51.229
    cyl -0.1114 1.045 -0.107 0.916 -2.285 2.062 disp 0.0133 0.018 0.747 0.463 -0.024 0.050 hp -0.0215 0.022 -0.987 0.335 -0.067 0.024 drat 0.7871 1.635 0.481 0.635 -2.614 4.188
    wt -3.7153 1.894 -1.961 0.063 -7.655 0.224 qsec 0.8210 0.731 1.123 0.274 -0.699 2.341 vs 0.3178 2.105 0.151 0.881 -4.059 4.694
    am 2.5202 2.057 1.225 0.234 -1.757 6.797 gear 0.6554 1.493 0.439 0.665 -2.450 3.761 carb -0.1994 0.829 -0.241 0.812 -1.923 1.524
    =====================================Omnibus: 1.907
    Durbin-Watson: 1.861
    Prob(Omnibus): 0.385
    Jarque-Bera (JB): 1.747
    Skew: 0.521
    Prob(JB): 0.418
    Kurtosis: 2.526
    Cond. No. 1.22e+04 =====================================
    模型的R²值为0.869,回归方程有效性F检验概率值为3.79e-07,还不错。但是看具体每个自变量的回归系数的有效性t检验,p值都大于0.05,有问题。
    本文代码: https://github.com/zwdnet/MyQuant/tree/master/16

    我发文章的四个地方,欢迎大家在朋友圈等地方分享,欢迎点“在看”。
    我的个人博客地址:https://zwdnet.github.io
    我的知乎文章地址: https://www.zhihu.com/people/zhao-you-min/posts
    我的博客园博客地址: https://www.cnblogs.com/zwdnet/
    我的微信个人订阅号:赵瑜敏的口腔医学学习园地

  • 相关阅读:
    数据分析只能当一辈子取数机?可能你缺少这个基础思维
    Funnel:漏斗图
    Calendar:日历图
    【自考】数据结构第五章图,期末不挂科指南,第9篇
    机器学习——TensorFlow Mnist数据集入门
    SpringCloud Alibaba微服务实战四
    视觉映射配置项VisualMapOpts
    chrome使用技巧(看了定不让你失望)
    chrome使用技巧(看了定不让你失望)
    chrome使用技巧(看了定不让你失望)
  • 原文地址:https://www.cnblogs.com/zwdnet/p/12315973.html
Copyright © 2020-2023  润新知