如果我们想在视觉方面的话,我们的训练数据集是散落在X-Y平面。我们试图使一个直线(Hθ定义(x)),通过这些散乱数据点。
我们的目标是找到最好的路线。最好的线将是这样的,以便从线的散乱点的平均平方垂直距离将是最小的。理想情况下,该行应该通过我们训练数据集的所有点。在这种情况下,J值(θ0,θ1)将0。下面的示例显示了理想情况下,我们的成本函数为0。
当θ1 = 1,我们得到一个1的坡度,经过每一个数据点,在我们的模型。相反,当θ1 = 0.5,我们看到垂直距离我们拟合数据点增加。
这使我们的成本函数提高到0.58。绘制其他几个点生成以下图表:
因此,作为一个目标,我们应该尽量减少成本函数。在这种情况下,θ1 = 1是全局极小值。