• 机器学习


    拥有标记的信息称为样例。
    (xi,yi)表示第i个样例,其中yi E Y 是示例xi的标记, Y是所有标记的集合。亦成为标记空间
    预测离散值,好瓜,坏瓜,这类学习任务称为分类。classification.
    若预测连续的值,如西瓜成速度0.95,0.37,此类学习称为回归
    对涉及两个类别的分类任务,二分类,一个类是正类,一个类是反类。涉及多个分类是多分类
    预测任务是通过对训练集{(x1,y1),(x2,y2)....(xm,ym)}进行学习建立一个从输入空间到输出空间Y的映射。
    测试集,测试样本。
    聚类,将训练集分成若干组,每一组称为一个簇。
    根据训练数据是否带有标记信息,分为监督学习supervised learning  包括分类和回归
    无监督学习unsupervised learning 包括聚类
    学习模型适应于新样本的能力称为泛化
    假设样本空间全体是个未知分布D, 每个样本都是独立的从这个样本空间采样活得的。即独立同分布,independent and
    identically distributed iid.
    归纳和演绎是科学推理两大基本手段。前者是从特殊到一般的泛化过程,即从具体事实归结出一般规律。后则从一般规律
    到特殊的特化过程。即从基础原理推演出具体状况。
    归纳学习有狭义与广义之分。广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念。
    因此亦称概念学习或概念形成。(想要学得泛化性能好且语义明确的概念实在太困难了)最简单的概念学习是bool概念学习
    ,即对是或不是可表示为0/1布尔值的目标概念的学习。

    学习过程看作一个在所有假设组成的空间中进行搜索的过程。搜索的目的是为了找到与训练集匹配的假设,即能够将训练集
    中的瓜判断正确的假设。
    现实中假设空间大,训练集小,存在一个与训练集一致的假设集合,我们称之为版本空间。
    使用偏好解决样本空间问题。
    原则,奥卡姆剃刀原则。多个假设与观察一致,选择最简单的那个。算法的归纳偏好于问题本身匹配觉定了算法好坏。

    第2章,模型评估与选择
    经验误差与过拟合。 精度=1-错误率
    机器学习的实际预测输出与样本的真实输出之间的差异称为误差。学习器在训练集上的误差称为训练误差。或经验误差。
    在新样本上的误差称为泛化误差。
    过拟合,欠拟合。学习能力过于强大。欠拟合容易克服,在决策树学习扩展分支,神经网络学习增加训练轮数。
    模型选择问题, 选择泛化误差小的那个模型。
    评估方法。通过测试对学校器的泛化误差进行评估。需要使用测试集。以测试误差作为泛化误差的近似。
    测试集尽量与训练集互斥。
    拥有m个样例的数据集。如何产生训练集和测试集。
    2.2.1 留出法
    将数据集划分成两个互斥道集. 保留类别比例的采样方式称为分层采样。例如通过对D进行分层采样获得70%的训练
    集S和30%的样本测试集T. 使用留出法时,一般要采用若干次随机划分,重复进行评估,取平均值作为评估结果。
    遇到的窘境,若S太大接近D,训练出的模型接近于用D训练出来的模型,但T较小评估结果不够稳定。反之,与用D训练
    出的模型差别较大。常见的做法是用2/3~ 4/5作为训练,剩余做测试。
    2.2.2 交叉验证法。
    将D划分为k个大小相似的互斥子集,每个子集Di都尽可能保持数据分布一致性,即从D中通过分层采样得到。然后
    每次用k-1个子集的并集作为训练集,剩余的那个子集作为测试集。这样将得到k组训练/测试集,从而进行k次训练
    和测试,最终返回的是k个测试结果的均值。通常把交叉验证法称为k折交叉验证。 k最常用的取值是10,其他k值
    有5,20等。
    子集划分,通常要随机使用不同划分重复p次,最终评估结果是这p次k折交叉验证结果的均值。常见10次10折交叉验证
    假定数据集D中包含m个样本,若令k=m,则交叉验证法定特例:留一法 LOO. 不受随机样本划分的影响。
    因为m个样本只有1个方式划分为m个子集每个子集包含1个元素。 优点评估模型接近D.
    缺陷:数据集比较大计算开销难以忍受。
    2.2.3自助法
    以自助采样法为基础(bootstrap sampling) 每次随机从D中选择一个样本,将其拷贝放入D',然后再将该样本放回数据
    集D中,使得样本下次采样仍可能被采到。被采到的概率(1-1/m)^m 取极限 0.368。 用D'做训练集,DD‘做测试集
    自助法在数据集较小,难以划分训练/测试集时很有用。自助法能产生不同的训练集。
    缺点,改变了数据集分别,容易引入估计偏差。
    2.2.4调参与最终模型



  • 相关阅读:
    servlet的之前与之后的基本使用
    java HashMap插入重复Key值问题
    ConcurrentHashMap底层实现原理(JDK1.7 & 1.8)
    spring cloud实现热加载
    spring cloud各个组件以及概念的解释和基本使用
    深入理解java 虚拟机 jvm高级特性与最佳实践目录
    【leetcode】1、两数之和
    【Java 基础领域】二维数组创建内存图
    【Java EE领域】com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Unknown column 'salary' in 'fi
    【JavaEE领域】com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Table 'mp.employee' doesn't exi
  • 原文地址:https://www.cnblogs.com/zhoug2020/p/6520501.html
Copyright © 2020-2023  润新知