特征选择
还是回归到房价的问题。在最开始的问题中,我们假设房价与房屋面积有关,那么最开始对房价预测的时候,回归方程可能如下所示:
其中frontage表示的房子的长,depth表示的是房子的宽。
但长和宽显然不是用于预测房价的一个很好的特征,正常的特征应该是房屋面积,那么正常的线性方程应该为:
其中X表示的房屋面积。
所以选择了合适的特征,对算法进行预测和分类是非常有好处的
多项式回归
很多时候,线性回归可能无法很好地拟合实际情况。例如房屋面积与房价之间的关系如下:
很明显,线性回归的方式无法很好地解决这个问题。
那么此时就可以考虑多项式的方式来解决这个问题。
相对来说,这样就可以更加拟合了。
但是有一点问题在于,如果是X的立方,则最后可能会有一个下降的趋势。但是根据实际情况,房价应该是随着房屋面积正增长的。那么最后的方程变为:
为了能到远方,脚下的每一步都不能少