• 机器学习 | 李航《统计学习方法》笔记整理之(一)统计学习方法概论


    本系列为李航《统计学习方法》学习笔记整理,以下为目录:

      (一)统计学习方法概论

      (二)感知机

      (三)k近邻

      (四)朴素贝叶斯

      (五)决策树

      (六)逻辑斯蒂回归与最大熵模型

      (七)支持向量机

      (八)提升方法

      (九)EM算法及其推广

      (十)隐马尔科夫模型

           (十一)条件随机场

    第一章 统计学习方法概论

    统计学习的对象是数据,关于数据的基本假设是同类数据具有一定的统计规律性。
     · 特点:
    数据独立同分布;模型属于某个假设空间(学习范围);给定评价准则下最优预测;最优模型的选择由算法实现

    1.2 监督学习

    给定有限训练数据出发,假设数据独立同分布,而且假设模型属于某个假设空间,应用某已评价准则,从假设空间中选择一个最优模型,使它对已给训练数据及未知测试数据在评价标准下有最准确的预测。
    · 监督学习:分类、标注(序列预测)和回归
    · 概念
    输入空间、特征空间和输出空间
    联合概率分布
    假设空间 

    1.3 三要素

    a. 模型
    模型就是所要学习的条件概率分布(非概率模型)或决策函数(概率模型)
     
    b. 策略
    统计学习的目标在于从假设空间中选取最优模型。
    损失函数来度量预测错误的程度,损失函数的期望是
    学习目标是选择期望风险最小的模型。
     
    · 学习策略(选择最优化的目标函数):
    1) 经验风险最小化
    极大似然估计
    2) 结构风险最小化(在经验风险上添加模型复杂度的正则化项,防止过拟合)
    贝叶斯中的最大后验概率估计MAP
     
    c. 算法- 最优化求解问题

    1.4 模型评估与选择

    训练误差和测试误差
    过拟合

    1.5 正则化与交叉验证(模型选择方法)

    正则化符合奥卡姆剃刀原理;从贝叶斯估计的角度来看,正则化项对应模型的先验概率,复杂的模型具有较大先验概率。
    交叉验证:简单、S折和留一交叉验证;

    1.6 泛化能力

    如果学到的模型是f,那么对未知数据的预测误差为泛化误差(期望风险):
    对于二分类问题,训练误差小的模型,泛化误差也会小?

    1.7 生成模型与判别模型

    生成方法(generative approach) 由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型 P(Y|X) = P(X, Y)/ P(X)
    模型给定了输入X产生输出Y的生成关系。典型的有朴素贝叶斯和隐马尔可夫
     
    判别方法(discriminate approach)由数据直接学习决策函数或条件概率分布。典型的有k近邻,感知机,决策树,最大熵,SVM等
     

  • 相关阅读:
    read-uncommited 下脏读的实现
    MySQL 加锁处理分析【重点】
    Next-key locking是如何解决幻读(当前读)问题的
    spring ioc
    讨论 update A set number=number+ ? where id=?的原子性 (含数据库原理)
    PESSIMISTIC_READ & PESSIMISTIC_WRITE 与 共享锁 & 排它锁
    innodb当前读 与 快照读 and rr级别是否真正避免了幻读
    java finalize及实践
    uva 539 The Settlers of Catan
    zoj 1016 Parencodings
  • 原文地址:https://www.cnblogs.com/geo-will/p/10306809.html
Copyright © 2020-2023  润新知