Linear Regression with Multiple Variables
-
mean normalization:将不同特征的数据scale统一
目的:为了使梯度下降法更快地找到全局最小值
实现方法:把原始数据做变换,(Xraw-mean)/(XrawMax-XrawMin)
-
feature scaling:
与mean normalization目的类似
实现方法:Xraw/(XrawMax-XrawMin)
3.梯度下降法(Gradient descent)的Theda参数求解,确定系数α
a.当α太小时,收敛会很慢,要迭代很多次
b.当α太大时,可能导致不收敛,代价函数可能不是递减的
因此,为了得到较好的效果,我们可以不断尝试α,例如α分别取0.001 , 0.003, 0.01 ,0.03, 0.1 ,0.3,1
然后根据效果确定最好的系数α
4.Polynomial regression(多项式回归)
线性回归不能准确表示,可以用多项式更准确地表示
实现方法:将一个特征的一次项作为一个特征,该特征的二次项作为一个特征...,然后按照原来的线性回归的方法确定系数
例:房子的价格(price)与房子大小尺寸(size)的关系
price=a1*size+a2*size^2+a3*size^3;
5.normal equation(标准方程)
梯度下降法与normal equation的比较
1.Gradient Descent需要选择系数α,需要多次迭代,当特征比较多时,仍然work well
2.normal equation不需要确定参数,不用迭代,但是需要计算(X'X)^-1,这个的计算量通常比较大
选择的原则:当特征比较多事选择 Gradient Descent,而特征比较少时用normal equation(n<1000)