线性回归算法在选自变量会遇到两个问题:一是去掉多重共线性干扰,二是选择最优自变量组合。
线性回归步骤
1.选择自变量
注意点 去掉多重共线性干扰,选择最优自变量组合。这里需要理解决定系数:R^。它是理解选自变量两个问题的基础。
2.创建线线回归模型
3.分析模型
R^
表示因变量波动中被模型拟合的百分比,作用是衡量模型拟合数据的好坏。
数学公式定义
普通R^ 建议在单自变量中使用
调整R^
当模型的输入自变量有一个以上时候,我们要对R^作出调整,这时候它被称为调整R^
调整R^建议在多自变量中使用。
基于线性回归模型了解R^取值范围所表示的意义
理解基于多种自变量模型的调整R^的定义及必要性
在原始数据中加入一个无关的自变量,R^会随之被误导而增加。下图就是在原始数据中增加了一列,与数据无关的掷硬币结果。
取值区间经验判断