• 李航-统计学习方法-笔记-1:统计学习方法概论


    1 统计学习

    统计学习由监督学习、非监督学习、半监督学习和强化学习等组成,本书主要讨论监督学习。

    1.1 监督学习:

    监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。

    方法=模型+策略+算法

    1.2 三要素

    统计学习三要素之一:模型

    在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。

    统计学习三要素之二:策略

    “策略即从假设空间中选取参数最优模型,模型的分类或预测结果与实际情况的误差越小,模型就越好”

    损失函数度量模型一次预测的好坏,风险函数(期望损失)即损失函数的期望用来度量平均意义下模型预测的好坏,但风险函数无法计算;

    模型关于训练数据集的平均损失称为经验风险(经验损失),当样本数量无限大时,经验损失就趋近于期望损失,但样本数目有限。

    经验风险最小化策略:认为经验风险最小的模型是最优模型。样本容量足够大时学习效果好,但样本容量很小时,容易产生过拟合。例极大似然估计。

    结构风险最小化(正则化)策略:为了防止过拟合提出的,在经验风险的基础上加上表示模型复杂度的罚项。用大于等于0的系数平衡经验风险和模型复杂度的关系。例贝叶斯估计,正则化是结构风险最小化策略的实现,作用是选择经验风险和模型复杂度同时较小的模型,正则化符合奥卡姆剃刀原理(简单有效“如无必要,勿增实体”)。

    这样监督学习问题就转变成为经验风险或结构风险的最优化问题

    统计学习三要素之三:算法

    “算法是指学习模型的具体计算方法,也就是如何求解全局最优解,并使求解过程高效,本质就是计算机算法,怎么去求数学问题的最优化解”

    正规方程或梯度下降

    1.3 统计学习步骤

    实现统计学习方法的步骤如下:

    (1)得到一个有限的训练数据集合;

    (2)确定包含所有可能的模型的假设空间,即学习模型的集合;

    (3)确定模型选取的准则,即学习的策略;

    (4)实现求解最优模型的算法,即学习的算法;

    (5)通过学习方法选取最优模型;

    (6)利用学习的最优模型对新数据进行预测分析。

    2 模型

    2.1 模型评估和模型选择:

    评估:训练误差和测试误差

    选择:正则化和交叉验证(简单交叉验证【训:测=7:3】,s折交叉验证【切分为s个互不相交子集,用s-1训练剩下的测试;将这一过程对可能的s中选择重复进行;选出平均测试误差最小的模型】,留一交叉验证(s=n;数据缺乏使用))或简单分为训练集(训练模型),验证集(模型选择)和测试集(模型评估)

     2.2 生成模型和判别模型:

    生成方法:由数据学习联合概率分布P(x,y),然后求条件概率分布p(Y|X)作为预测的模型,即生成模型;典型的有:朴素贝叶斯法和隐马尔可夫模型。

    特点:(1)还原出联合概率分布(2)学习收敛速度更快,即当样本数量增加时,学习到的模型可以更快的收敛于真实模型(3)当存在隐变量时,仍可以使用生成方法学习。

    判别方法:由数据直接学习决策函数f(X)或条件概率分布P(Y|X)作为预测的模型,即判别模型。

    特点:(1)直接学习条件概率或决策函数,直接面对预测,往往准确率更高(2)可以对数据进行各种程度的抽象、定义特征并使用特征,简化学习问题。

    3 监督学习类型

    3.1 分类问题

    在监督学习中,当输出变量Y取有限个离散值时,X可以是离散也可以是连续的,预测问题便成为分类问题,本书主要讨论二分类问题。

    评价分类器性能的指标一般是分类准确率。

    为了解决正负样本不平衡问题,引入精确率与召回率。

    “TP-将正类预测为正类数;FN-将正类预测为负类数;FP-将负类预测为正类数;TN-将负类预测为负类数”

    精确率定义为:P=TP/(TP+FP)召回率定义为:P=TP/(TP+FN)

    但两个指标不好选模型,因此引入F1指标

    F1=2PR/(P+R)

    3.2 标注问题

    “标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目的在于学习一个模型,使它能够对观测序列给出标记序列作为预测”

    标注问题常用的统计学习方法有:隐马尔可夫模型、条件随机场

    实例:

    1.自然语言处理中的词性标注:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。(单词序列->词性标记序列)

    2.信息抽取:从英文文章中抽取基本名词短语,为此要对文章进行标注。标记开始B,结束E,其他O。(英文句子->标记序列)

    3.3 回归问题

    (函数拟合)选择一条函数曲线使其很好的拟合已知数据且很好地预测未知数据。

    最常用的损失函数是平方损失函数,此时可用最小二乘法($ heta=(x^T*X)^{-1}*X^T*y$)或梯度下降法求解。

  • 相关阅读:
    Java进行AES/DES加密,C#对其进行解密
    【程序员的吃鸡大法】利用OCR文字识别+百度算法搜索,玩转冲顶大会、百万英雄、芝士超人等答题赢奖金游戏
    TWaver初学实战——炫动2D机房之连线篇
    TWaver初学实战——炫动2D机房之设备篇
    TWaver初学实战——炫动2D机房之机柜篇
    TWaver初学实战——基于HTML5的交互式地铁图
    TWaver3D入门探索——3D拓扑图之人在江湖
    TWaver3D入门探索——3D拓扑图之绽放的小球花
    TWaver初学实战——如何在TWaver属性表中添加日历控件?
    TWaver初学实战——如何在EasyUI中插入TWaver(续)
  • 原文地址:https://www.cnblogs.com/ditingz/p/11736482.html
Copyright © 2020-2023  润新知