机器学习理论基础2笔记

机器学习理论基础2笔记
在学习机器学习之前熟悉一下机器学习相关的词，对今后的机器学习有一定的帮助，使得我们能够更为清晰的认识机器学习

此次的笔记只是一种简要的概括，具体的可以参照博客https://www.csdn.net/gather_27/MtTacg5sOTg2Ni1ibG9n.html

当然还有其它的，只要我们能够学到好东西就可以收藏。

机器学习关于数据集的概念

       什么样的数据集

       数据集的行---样本

       数据集的列---特征

       特征组成的空间---特征或属性空间

       组成属性空间中的点---特征或属性向量

       将数据集切分成训练集和测试集

       使用训练集+算法构成模型解决实际问题

       误差：进行校验结果情况

       如果对于非数值的特征，需要进行特征转换

       如何对二分类问题进行评价？

              绝对值误差函数

              平方误差函数

              训练误差：机器学习模型在训练数据集上表现出的误差叫做训练误差

              测试误差：模型在测试集上的错分率

              泛化误差：在任意一个测试数据样本上表现出的误差的期望值叫做泛化误差

              性能矩阵(混淆矩阵)

https://blog.csdn.net/u013063099/article/details/80964865该链接对以下的名词解释比较详细，有图有公式

准确率Accuracy

精确率Precision

召回率=真正率TPR(true positive rate)

假正率FPR(false negative rate)

F1-Score(F1值): 精确率和召回率的调和平均

F1 score=2/(1/pre + 1/recall) = 2*pre*recall/(recall+pre)

          ROC(受试者工作曲线) 曲线：AUC(Area under Cruve) [0,1]

机器学习基本概念

基本概念：训练集、测试集、特征值、监督学习、非监督学习、半监督学习、分类、回归

训练集(training set/data)/训练样例(training examples):用来进行训练，也就是产生模型或者算法的数据集。

测试集(testing set/data)/训练样例(testing examples)：（通常只知道特征，用来进行预测）用来专门进行测试已经学习好的模型或者算法的数据集。

特征向量(features/feature vector):属性的集合，通常用一个向量来表示，属于一个实例。

标记(label):c(x),实例类别的标记。

正例(positive example)

反例(negative example)

分类(classification)：

       目标标记为类别型数据(category)

回归(regression):

       目标标记为连续性数值(continuous numeric value)

初识机器学习分类

       有监督学习(supervised learning): 训练集有类别标记(class label)

       无监督学习(unsupervised learning): 无类别标记

       半监督学习(semi-supervised learning):有类别标记的训练集 + 无标记的训练集

机器学习步骤框架
1. 把数据拆分为训练集和测试集
2. 用训练集和训练集的特征向量来训练算法
3. 用学习来的算法运用在测试集上来评估算法（可能要涉及到调整参数（parameter tuning）--(验证集（validation set）)）
机器学习分类详解

监督学习、非监督学习、半监督学习、强化学习、迁移学习、深度强化迁移学习

监督学习(supervised)是指训练数据集中的每个样本均有一个已知的输出项（类标label）

输出变量为连续变量的预测问题称为回归(regression)问题(西瓜的成熟度)。

输出变量为有限个离散变量的预测问题称为分类问题(西瓜的分类)。

监督学习和无监督学习区别：是否有类别标签

       监督学习

              是否具备连续的预测值

                     分类

                     回归

       无监督学习(非监督学习)
1. 聚类(KMeans)
在没有类别标签的情况下，通过特征之间的相似性或向异性进行分类
1. 降维
根据算法将高维特征降低到了低维特征，低维度的特征不具备可解析性行

              聚类的假设：将有标记的样本和无标记的样本混合在一起，通过特征之间的相似性

              样本分成若干个组或若干个簇，使得组内的相似性较大，组间的相异性较大，将样

              本点都进行分组，此时，分组的样本点即包含了有类别标签的也包含没有类别标签

              根据有类别标签的样本，按照少数服从多数的投票原则对没有加标记的样本添加标

              记。至此，所有的未标记数据都可以分配标记。

       半监督学习：

              主动学习

              纯半监督学习/直推学习

强化学习

              是机器学习的一个重要分支，主要用来解决连续决策的问题。

迁移学习

       解决小数据集和个性化问题

深度(特征)+强化(连续决策)+迁移(模型的适应性问题)



机器学习三要素详解及概念强化

       统计学习=模型+策略+算法

       模型：规律y=ax+b

       策略：什么样的模型是好的模型？损失函数

       算法：如何高效找到最优参数，模型中未知的参数a，b



机器学习模型=数据+算法+策略

              数据：

              算法：提供求解参数的方法

                     解析解—平常方法

                     最优解—梯度下降法(最优解)、牛顿法

              策略：损失函数

       模型学习模型=模型+算法+策略

              模型：

                     决策函数—输出0或1

                     条件概率函数—按照概率进行输出



       模型—寻找规律

              机器学习中，首先要考虑学习什么样的模型，在监督学习中，如模型(y=ax+b)

       就是所要学习的内容

              模型通常分为决策函数或条件概率分布

              由决策函数表示的模型为非概率模型，由条件概率分不表示的模型为概率模型



       策略—模型好不好

       评估模型的好坏，使用损失函数来进行度量，模型给出的值与实际真实值存在的差别。

算法

       机器学习的算法就是最优化问题的算法。如果最优化问题有显示的解析解，这个最优化问题就比较简单，但通常这个解析解不存在，所以就需要利用数值计算额方法来求解。

机器学习可以利用已有的最优化算法，也可以开发独自的最优化算法。

如何设计机器学习系统

       首先明确：

              该问题是否为机器学习问题？

              该问题是机器学习哪方面的问题？--监督学习，无监督学习

       当拿到数据之后从下面两个角度思考问题：

              从数据角度思考：

                     根据具备的数据看能够做监督学习or无监督学习or半监督学习

              从业务的角度思考：

                     根据业务部门指定的业务方向，整理数据，从而建模

       特征工程

              对特征处理

              对数据处理

       数据+选择的算法è模型

       通过测试集模型，给定最终模型

       如果有新数据，通过模型给出预测结果

泛化

       模型具有好的泛化能力指的是：模型不但在训练数据集上表现的效果很好，对于新数据的适应能力也有很好的效果。

       泛化能力的表现：过拟合和欠拟合

              过拟合overfitting：模型在训练数据上表现良好，在未知数据或者测试集上表现差。

              欠拟合underfitting：在训练数据和未知数据上表现都很差。
1. 欠拟合
模型在训练集和测试集的效果都很差

A:60% B:58%

欠拟合出现的原因：模型过于简单

欠拟合出现的场景：模型训练初期

欠拟合解决办法：

       增加模型的多项式的项

       增加模型多项式的次数

       减少正则罚项
1. 过拟合
模型在训练集上的效果很好，但是测试效果很差

A：100% B: 80%

A：100% B: 40%

过拟合的出现原因：模型过于复杂，数据不纯、训练数据量太少

过拟合出现的场景：出现在模型训练的中后期

过拟合解决办法：

       针对模型过于复杂的特性，增加正则罚项了，L1,L2

       重新清洗数据

       增加训练数据量

       对样本抽样或特征进行抽样

       dropout—随机丢弃一些点（深度学习）

       模型的选择—奥卡姆剃刀原则是模型选择的基本而且重要的原则

              给定两个具有相同泛化误差的模型，较简单的模型比复杂的模型更可取



机器学习三要素数学理论补充

       数据

       算法

       策略

              这里的策略缩小到损失函数

              损失函数、目标函数、误差函数（这三个指的是一个意思）

              损失函数越小越好

              损失函数的期望是：



              损失函数的期望越小越好P(x,y)不易求解

              监督学习的两个基本策略：1.经验风险最小化 2.结构风险最小化

              经验损失------平均损失------经验风险最小化

              结构风险------在经验风险基础上增加了正则罚项------结构风险最小化

                     随着模型的复杂度的增加，模型在训练集上的误差越小，但是模型在测试集上

                     的误差先减少然后增加，这里需要找到一个适合的点，该点需要模型具备很好

                     泛化误差能力，因此得到了结构风险最小化的点对应的就是求解的最佳点，该

                     点对应的参数即为所求解参数

正则化

       正则项

              目的：为了降低模型的复杂度

              有几个正则项：

                     L1正则项、L2正则项

                     https://blog.csdn.net/coderTC/article/details/78452300讲述了两者的区别

交叉验证

       简单交叉验证：
              将数据集切分为：训练集和测试集 7:3 6:4 8:2

       K则交叉验证:

              将数据集平均随机切分为K等份，将其中一份数据作为测试集，训练K个模型，得

              平均准确率

       留一验证：

              特殊的K则交叉验证
相关阅读:
SE78添加图片，比如smartforms用的…
Smartforms
将文件上传到FTP服务器
 【转自ITPUB】SYNONYM关于underlying table权限的小小发现
 alter session set current_schema=Schema
exportDISPLAY=:0.0的解释
 如何通过使用Xmanager的图形化界面修改系统
 Xms Xmx PermSize MaxPermSize 区别
 oracle中schema指的是什么？
oracle表空间查询
原文地址：https://www.cnblogs.com/yang901112/p/11480861.html