• 统计学习笔记(0)


    统计学习分类:

    • 监督学习 (supervised learning)
    • 非监督学习 (unsupervised learning)
    • 半监督学习 (semi-supervised learning)
    • 强化学习 (reinforcement learning)

    一直以为强化学习不属于统计学习的范畴,看来过去臆想了。

    监督学习基本概念

    输入、特征、输出空间

    • 输入与输出的所有值分别称之为输入空间输出空间
    • 所有特征向量存在的空间称为特征空间,特征空间的每一维对应于一个特征;
    • 有时,输入空间会和特征空间一致;有时会不同,输入空间往往会经过某些变换将输入空间映射到特征空间;
    • 模型实际是都是定义在特征空间上的;
    • 人们根据输入和输出变量的不同类型来区分不同的预测任务
      • 输入和输出均为连续变量的预测问题称之为回归问题
      • 输出为有限个离散变量的预测问题称之为分类问题
      • 输入和输出均为变量序列的预测问题称之为标注问题

    联合概率分布

    监督学习假设输入和输出遵循联合概率分布$P(X,Y)$.

    假设空间

    监督学习的目的在于学习一个有输入到输出的映射,这一映射由模型来表示。
    模型属于由输入空间到输出空间的映射的集合,这一集合就是假设空间(hypothesis space),假设空间的确定意味着学习范围的确定。

    监督学习的模型可以是概率模型或非概率模型,用条件概率分布或决策函数表示。

    问题形式化

    监督学习分学习和预测两个过程。学习过程是利用训练数据集学习一个模型,再用学习到的模型对测试样本进行预测,即预测过程。

    一个具体的模型$y=f(x)$,对一个输入$x_i$,可以产生一个输出$f(x_i)$,而训练模型中对应的输出是$y_i$,如果这个模型训练的足够好,有很好的预测能力,则其训练样本的输出$y_i$和模型的输出$f(x_i)$之间的差就应该足够小。学习系统就是通过不断尝试,选取最好的模型,以便对训练数据集具有最好的预测,同时对未知的测试数据集的预测也有尽可能好的推广,即泛化能力。

    统计学习三要素

    • 模型

      • 模型的假设空间包含所有可能的条件概率或决策函数
      • 参数空间
    • 策略
      学习的准则

      • 损失函数和风险函数

        • 0-1、 平方、 绝对、 对数损失函数
        • 损失函数的期望,即平均意义下的损失,称之为风险函数或期望损失
      • 经验风险最小化与结构风险最小化

        • 经验最小化的策略认为经验最小的模型是最优的,当样本数量很小时会出现“过拟合”
        • 结构最小化是为了防止“过拟合”提出,其等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则项或者惩罚项
        • $frac{1}{N} sum_{i=1}^{N} L(y_i,f(x_i)) +lambda ast J(f)$

        $J(f)$为模型的复杂度,模型越复杂,复杂度越大,即复杂度表示了对复杂模型的惩罚,$lambda$系数 大于0, 用以权衡经验风险和模型复杂度。结构风险小需要经验风险与模型复杂度同时小。

    • 算法

      • 统计学习问题归结为最优化问题

    模型的评估与模型选择

    • 一般考虑到训练误差测试误差
    • 避免过拟合

    正则化与交叉验证

    • 正则项一般有1-范数和2-范数
    • 交叉验证
      • 简单交叉验证,即随机将已知数据分2部分,分别作为训练和测试,然后将训练集在各种参数条件下训练,最后在测试集上评估,选出测试误差最小的模型;

      • S折交叉验证,首先随机将数据切分为S个互不相交的大小相同的子集,然后用S-1个子集用于训练,余下的作为测试,重复选择S次,最后选择S次测试中平均测试误差最小的模型

      • 留一交叉验证,S折交叉验证的特殊情形S=N,N为给定数据集的容量,即每次只有一个数据样本用于测试。

    泛化能力

    • 即模型对未知数据的预测能力。
    • 理论上可以通过泛化误差上界的大小来进行分析。

    生成模型与判别模型

    • 根据采用的方式是生成方法和判别方法而来。
    • 生成方法是由数据学习联合概率分布,然后求得条件概率分布作为模型
      • 典型有:朴素贝叶斯法和隐马尔科夫模型
    • 判别方法是由数据直接学习决策函数或者条件概率分布作为模型
      • 典型有:K近邻,感知机,决策树,逻辑回归,最大熵模型,SVM,提升方法(AdaBoost),条件随机场等

    区别:

    • 生成方法可以还原出联合概率分布,判别则不行;
    • 生成方法学习的收敛速度更快
    • 当存在隐变量,仍可以用生成方法,而此时判别方法行不通
    • 判别方法直接学习条件概率或决策函数,直接预测,往往学习的准确率更高;由于直接学习,可以对数据进行各种程度上的抽象、定义特征并使用特征,也可以简化学习问题

    面向问题

    • 分类问题

      • 指标:
        • TP--将正类分为正的;

        • FN--将正类分为负的;

        • FP--将负类分为正的;

        • TN--将负类分为负的。

        • 精确率 P = TP/(TP+FP)

        • 召回率 R = TP/(TP+FN)

        • 以上两者的调和均值 2/F = 1/P + 1/R

    • 标注问题

    • 回归问题

      • 一元回归和多元回归
      • 线性和非线性
      • 常用损失函数--平方损失函数

    非监督学习

    • 数据没有类别信息,也不给定目标值
    典型代表:
    • 聚类将数据集合分成由类似的对象组成的多个类
    • 密度估计用于寻找数据统计值
    • 降维,用于展示数据或者预处理

    e.g

    • K-均值
    • 最大期望算法
    • DBSCAN(Density-based spatial clustering of applications with noise)
    • Parzen窗设计

    参考:

    统计学习方法,李航
    机器学习实战, Peter Harrington

    该博客停止更新,继续关注请移步: www.foolweel.com
  • 相关阅读:
    Mac安装Homebrew的那些事儿
    SpringBoot:如何优雅地处理全局异常?
    JDK8日常开发系列:Consumer详解
    Docker 快速安装Jenkins完美教程 (亲测采坑后详细步骤)
    Linux安装Git-两种方式详细教程)
    Linux安装maven(详细教程)
    Linux安装jdk(详细教程)
    Docker基础概念与安装
    JVM参数及调优
    JDK内置工具命令
  • 原文地址:https://www.cnblogs.com/Qwells/p/5414945.html
Copyright © 2020-2023  润新知