1、Model representation
首先来看一个简单的学习算法—线性回归,通过对线性回归模型的分析可以了解有监督学习算法的过程。
先看一个房价预测的问题,我们利用一个城市的房价信息集,来预测房屋价格和房屋面积的关系。
根据图中信息,我们如何预测面积为1250的房屋的销售价格?很直接的方法就是在图中画一条尽可能满足各个点的直线,在找到1250在该线上对应的值。
这是一个简单的有监督学习算法,因为图中的点是确定的。有监督学习中会有一系列已知的数据,上面的例子中就是图中所对应的点,我们称这些已知的数据为训练集(training set)。算法的目的就是利用这些训练集预测房屋价格。
作如下定义:
m = 训练样本的个数;
x = 输入变量/特征;
y = 输出变量
(x,y)表示一个训练样本;
(x(i),y(i))表示第i个样本;
有监督学习算法的结构如下图
用大量的训练集对学习算法进行训练,学习算法最终的到一个描述x和y映射关系h。根据h可以预测任一给定x对应的y值。
算法的关键就是得到h
假设:htheta(x) = theta0 =theta1x ,这是一个线性函数,当然根据实际情况我们也可以假设h为非线性。
2、cost function