机器学习第二问 --- 机器是如何学习的?(How can machine learn?)
简单来说,机器学习是这样的一个过程:输入我们收集的训练数据,通过学习算法检验所有可能的假设(假设用函数表示),找到一个最近似于真实规律的假设。如下图所示:
一些术语:
- 特征(Feature):x∈X,输入的一些描述
- 目标(Target):y∈Y,特征所对应的分类或值,比如说某个肿瘤是良性的还是恶性的,或者某个房子可以卖多少钱
- 真实的目标函数(True Target Function):f: X→Y,特征和目标之间的真实规律,用函数表示
- 训练数据(Training Data):D={(x1,y1),(x2,y2),…,(xn,yn)},是之前积累的记录,在现实生活中,训练数据是有噪声的,比如说记录错误,缺失值,测量误差等
- 假设集(Hypothesis Set):h∈H,所有可能表示特征和目标之间规律的函数
- 学习到的函数(Learned Formula):g: X→Y,机器从训练数据中学到的规律,用函数表示,我们期望学到的g表现足够好,即g≈f
- 机器学习算法(Learning Algorithm):A,由D产生g的算法,A会从各种不同假设h构成的集合H中挑选出一个最好的g,使得g≈f