机器学习 - 润新知

机器学习

拥有标记的信息称为样例。
(xi,yi)表示第i个样例，其中yi E Y 是示例xi的标记， Y是所有标记的集合。亦成为标记空间
预测离散值，好瓜，坏瓜，这类学习任务称为分类。classification.
若预测连续的值，如西瓜成速度0.95,0.37,此类学习称为回归
对涉及两个类别的分类任务，二分类，一个类是正类，一个类是反类。涉及多个分类是多分类
预测任务是通过对训练集{(x1,y1),(x2,y2)....(xm,ym)}进行学习建立一个从输入空间到输出空间Y的映射。
测试集，测试样本。
聚类，将训练集分成若干组，每一组称为一个簇。
根据训练数据是否带有标记信息，分为监督学习supervised learning 包括分类和回归
无监督学习unsupervised learning 包括聚类
学习模型适应于新样本的能力称为泛化
假设样本空间全体是个未知分布D, 每个样本都是独立的从这个样本空间采样活得的。即独立同分布，independent and
identically distributed iid.
归纳和演绎是科学推理两大基本手段。前者是从特殊到一般的泛化过程，即从具体事实归结出一般规律。后则从一般规律
到特殊的特化过程。即从基础原理推演出具体状况。
归纳学习有狭义与广义之分。广义的归纳学习大体相当于从样例中学习，而狭义的归纳学习则要求从训练数据中学得概念。
因此亦称概念学习或概念形成。（想要学得泛化性能好且语义明确的概念实在太困难了）最简单的概念学习是bool概念学习
，即对是或不是可表示为0/1布尔值的目标概念的学习。

学习过程看作一个在所有假设组成的空间中进行搜索的过程。搜索的目的是为了找到与训练集匹配的假设，即能够将训练集
中的瓜判断正确的假设。
现实中假设空间大，训练集小，存在一个与训练集一致的假设集合，我们称之为版本空间。
使用偏好解决样本空间问题。
原则，奥卡姆剃刀原则。多个假设与观察一致，选择最简单的那个。算法的归纳偏好于问题本身匹配觉定了算法好坏。

第2章，模型评估与选择
经验误差与过拟合。精度=1-错误率
机器学习的实际预测输出与样本的真实输出之间的差异称为误差。学习器在训练集上的误差称为训练误差。或经验误差。
在新样本上的误差称为泛化误差。
过拟合，欠拟合。学习能力过于强大。欠拟合容易克服，在决策树学习扩展分支，神经网络学习增加训练轮数。
模型选择问题，选择泛化误差小的那个模型。
评估方法。通过测试对学校器的泛化误差进行评估。需要使用测试集。以测试误差作为泛化误差的近似。
测试集尽量与训练集互斥。
拥有m个样例的数据集。如何产生训练集和测试集。
2.2.1 留出法
将数据集划分成两个互斥道集. 保留类别比例的采样方式称为分层采样。例如通过对D进行分层采样获得70%的训练
集S和30%的样本测试集T. 使用留出法时，一般要采用若干次随机划分，重复进行评估，取平均值作为评估结果。
遇到的窘境，若S太大接近D，训练出的模型接近于用D训练出来的模型，但T较小评估结果不够稳定。反之，与用D训练
出的模型差别较大。常见的做法是用2/3～ 4/5作为训练，剩余做测试。
2.2.2 交叉验证法。
将D划分为k个大小相似的互斥子集，每个子集Di都尽可能保持数据分布一致性，即从D中通过分层采样得到。然后
每次用k-1个子集的并集作为训练集，剩余的那个子集作为测试集。这样将得到k组训练/测试集，从而进行k次训练
和测试，最终返回的是k个测试结果的均值。通常把交叉验证法称为k折交叉验证。 k最常用的取值是10，其他k值
有5，20等。
子集划分，通常要随机使用不同划分重复p次，最终评估结果是这p次k折交叉验证结果的均值。常见10次10折交叉验证
假定数据集D中包含m个样本，若令k=m,则交叉验证法定特例：留一法 LOO. 不受随机样本划分的影响。
因为m个样本只有1个方式划分为m个子集每个子集包含1个元素。优点评估模型接近D.
缺陷：数据集比较大计算开销难以忍受。
2.2.3自助法
以自助采样法为基础（bootstrap sampling) 每次随机从D中选择一个样本，将其拷贝放入D',然后再将该样本放回数据
集D中，使得样本下次采样仍可能被采到。被采到的概率（1-1/m)^m 取极限 0.368。用D'做训练集，DD‘做测试集
自助法在数据集较小，难以划分训练/测试集时很有用。自助法能产生不同的训练集。
缺点，改变了数据集分别，容易引入估计偏差。
2.2.4调参与最终模型
相关阅读:
servlet的之前与之后的基本使用
 java HashMap插入重复Key值问题
 ConcurrentHashMap底层实现原理(JDK1.7 & 1.8)
spring cloud实现热加载
 spring cloud各个组件以及概念的解释和基本使用
 深入理解java 虚拟机 jvm高级特性与最佳实践目录
 【leetcode】1、两数之和
 【Java 基础领域】二维数组创建内存图
 【Java EE领域】com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Unknown column 'salary' in 'fi
【JavaEE领域】com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Table 'mp.employee' doesn't exi
原文地址：https://www.cnblogs.com/zhoug2020/p/6520501.html