• 统计学习方法读书笔记(1)


    第一章.方法概论

    1.监督学习:对任意给定输入,对其相应的输出做一个好的预测。

    2.回归问题:输入变量与输出变量都为连续变量的预测问题。

    ​ 分类问题:输入变量为有限个离散变量的预测问题。

    ​ 标注问题:输入输出变量均为变量序列的预测问题。

    3.概率模型: 由条件概率分布P(Y|X)表示

    ​ 非概率模型:由决策函数Y= f(X)表示

    4.统计学习三要素:

    ​ (1)模型:概率模型or非概率模型

    ​ (2)策略:学习或选择最优的模型,如何度量?损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。度量结果不理想?经验风险最小化和结构风险最小化(加入正则项防止过拟合)。

    ​ (3)算法:即最优化问题,分为全局最优和局部最优。

    5.训练误差和测试误差:看是对训练数据集还是测试数据集计算平均损失。

    6.正则化:在经验风险上加上一个正则化项或罚项来实现结构风险最小化,模型越复杂,正则化值越大。选择经验风险和模型复杂度同时较小的模型。

    7.交叉验证:数据不充足时,把给定的数据进行切分来重复使用数据,反复地进行训练,测试以及模型选择。包括简单交叉验证,S折交叉验证,留一交叉验证。

    8.泛化能力:学习到的模型对未知数据的预测能力。

    ​ 泛化误差:

    9.生成模型:由数据学习联合概率密度分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:P(Y|X)= P(X,Y)/ P(X)。基本思想是首先建立样本的联合概率概率密度模型P(X,Y),然后再得到后验概率P(Y|X),再利用它进行分类,就像上面说的那样。

    ​ 判别模型:由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。典型的判别模型包括k近邻,感知级,决策树,支持向量机等。

    10.分类问题:k近邻法,感知机,朴素贝叶斯,决策树,逻辑斯谛回归,支持向量机,提升方法,EM算法,隐马尔科夫模型,贝叶斯网络,神经网络。

    11.标注问题:输入观测序列,输出一个标记序列或状态序列。

    12.回归问题:选择一条函数曲线很好的拟合已知数据和预测未知数据。最常用的损失函数为平方损失函数,可由最小二乘法求解。

  • 相关阅读:
    Python-深浅拷贝
    Python-生成式
    Python-手写web应用
    Python-为什么产生了GIL锁?
    Python-文件处理
    Python-线程
    10大网站设计错误 足以毁掉你的网站【转】
    [转]ASP.NET验证发生前无法调用 Page.IsValid。应在 CausesValidation=True 且已启动回发的控件
    jquery操作字符串常用方法总结及工作代码
    C#中的序列化和反序列化是什么、有什么作用、使用方法详解
  • 原文地址:https://www.cnblogs.com/PJQOOO/p/7190449.html
Copyright © 2020-2023  润新知