1.机器学习的一些概念 有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证
- 有监督:数据集有有已知的y值(label 结果)
- 无监督:数据集中没有y值,需要根据近似性关系分成一簇一簇的聚类来当作y值来评估
- 泛化能力:指算法对具有同一规律的学习集以外的数据,的适用程度,对其它样本的适应能力
- 过拟合:over-fitting,指模型在训练样本中表现过好,要求过于精细,导致泛化能力减弱,在验证数据集和测试集中表现不佳。用图表示就是曲线起伏过大,不平稳。也称高方差。
解决办法:过拟合可以通过减少参数,加入正则惩罚项 L1(绝对值项) L2,变化学习率,尽可能扩大数据集选取范围等方式解决。 - 欠拟合:under-fitting,与上相反,指模型过于简单或训练样本做的不够,比如特征过省,导致的模型在验证集测试集数据中表现不好,没有代表性。用图表现就是一条无起伏的线。也称高偏差。
解决办法:欠拟合可以通过交叉验证,让特征较少的情况多次迭代交替使用训练集和验证集,达到优化,或跟据相关性添加其它特征项,减少正则化参数。神经网络可以加结点加层数。 - 交叉验证:把特征分成几部分:一些作为训练集一些做验证集,下一次交换角色,用验证集数据做训练集,训练集做验证集,交替多次充份训练验证数据。
2.线性回归的原理
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布
3、线性回归损失函数、代价函数、目标函数
- 损失函数 Loss Function 是定义在单个样本上的,算的是一个样本的误差。
- 代价函数 Cost Function 是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。
- 目标函数Object Function定义为:Cost Function + 正则化项。
4、优化方法(梯度下降法、牛顿法、拟牛顿法等)
5、线性回归的评估指标
衡量线性回归法的指标MSE, RMSE,MAE和R Square