引自:机器学习策略一书
1、
监督学习:即使用标注(labeled)的训练样本(x,y) 来学习一个从 x 映射到 y 的函数。监督学习算法主要包括线性回归(linear regression)、对数几率回归(logistic regression,又译作逻辑回归、逻辑斯蒂回归)和神经网络(neural network)。虽然机器学习的形式有许多种,但当前具备实用价值的大部分机器学习算法都来自于监督学习。
2、
• 训练集(training set) 用于运行你的学习算法。
• 开发集(development set) 用于调整参数,选择特征,以及对学习算法作出其它决定。
有时也称为 留出交叉验证集(hold-out cross validation set) 。
• 测试集(test set) 用于评估算法的性能,但不会据此改变学习算法或参数。
开发集和测试集的使命就是 引导你的团队对机器学习系统做出最重要的改变 合理地选择开发集和测试集,使之能够代表将来实际数据的情况,并期望算法能够运行良好。