• 第一章 统计学习方法概论


    这本书确实很好,一直都没有坚持学下去,真是可惜,现在每天打卡,学习一章,并做下学习笔记。

    已经有人做过类似的笔记了:统计学习笔记(1)——统计学习方法概论

    那我就不用求全,只需要总结框架,并把难懂的知识点重点理解。


    image

    第一章讲的基本是理论

    统计学习:数据、建模、预测,全称统计机器学习;包括监督学习、无监督学习、半监督学习、强化学习。


    监督学习:包括分类、标注和回归;训练集、假设空间、评价准则、测试集;三要素:模型、策略和算法。

    输入空间、输出空间:输入输出变量用大写X、Y;变量所取的值用小写x,y;

    特征空间:特征向量存在的空间,每一维对应一个特征,模型定义在特征空间中。

    输入实例x的特征向量为(上标表示特征,下表表示实例个数):image

    欧式空间:欧几里德空间,平面几何、立体几何,一般化拓展到任意维度,长度、角度、内积。

    标量和矢量:链接

    回归问题:

    分类问题:

    标注问题:是分类的推广,输入是一个观测序列,输出是一个标记序列或者状态序列。

    联合概率分布:输入和输出遵循联合概率分布P(X,Y),分布函数,是监督学习的基本假设。

    假设空间:映射模型,所有可能模型的集合就是假设空间,确定了学习范围

    两种模型:概率模型 条件概率分布 P(Y|X)、非概率模型 决策函数 Y=f(X)。决定映射关系。

    image

    小小想法:监督学习很好理解,我都给定训练集了,都有明确的评判标准了,我只需模型出来的结果和训练集的结果无限接近,此时的参数和模型就是我需要的。(会用到代价函数和梯度下降法)


    模型:假设空间包含了所有可能的条件概率分布、决策函数,imageimage

    策略:选择最优模型的准则,损失函数:模型一次预测的好坏;风险函数:平均意义下模型预测的好坏

    损失函数:或者代价函数,用来度量预测错误程度,image,有很多种类:0-1、平方、绝对值、对数。

    风险函数:即损失函数的期望,image(翻翻书吧,期望怎么求),学习的目标就是选择期望风险最小的模型。 联合分布一定是未知的,所以不能用这个来选择模型。

    经验风险:给定训练集,模型在训练集的平均损失为经验风险,image,实际中只能根据经验风险来估计期望风险,但同时还必须要使得结构风险最小化,防止训练集过小引起的误差(过拟合)。

    大数定理:

    极限中心定理:

    极大似然估计:等同于经验风险最小化(怎么理解)

    最大后验概率估计:等价于结构风险最小化

    结构风险最小化:防止过拟合,等价于正则化,image,就多了一个正则化项、罚项。权衡经验风险和模型复杂度。

    泛函:

    算法:求解最优模型的具体的计算方法,求全局最优解问题,一般没有显式的解析解(一步求解)。


    学习方法评估:基于损失函数的训练误差 和 模型的测试误差。

    泛化能力:学习方法对位置数据的预测能力

    过拟合:以为追求对训练数据的预测能力,导致模型复杂度过高(模型参数太多)。


    模型选择方法:正则化和交叉验证。

    正则化:结构风险最小化策略的实现,加一个正则化项。

    image

    向量范数:百度百科

    奥卡姆剃刀原理:从贝叶斯估计来看,正则化项对应于模型的先验概率。

    交叉验证:数据充足时,可以将数据集分为:训练集、验证集和测试集。但现实是数据往往太少,所以要重复利用数据。分为:简单交叉验证、S折交叉验证、留一交叉验证。


    泛化能力:一般通过测试误差来评价,

    泛化误差上界:


    生成模型:由数据学习联合概率分布,然后求条件概率分布,包括朴素贝叶斯法和隐马尔科夫模型。

    image

    判别模型:由数据直接学习决策函数和条件概率分布,包括:k近邻法,感知机,决策树,逻辑斯蒂回归,最大熵,支持向量机,条件随机场


    分类准确率的度量:

    image

    精确率:

    召回率:


  • 相关阅读:
    HTML_表单
    jabc_DAO
    JDBC 加钱减钱
    JDBC 连接池
    JDBC
    视图序列索引
    【Java8】 lambda 特性讲解
    IntelliJ IDEA 常用快捷键
    Java IO 之 装饰模式
    Java IO 讲解
  • 原文地址:https://www.cnblogs.com/leezx/p/6117728.html
Copyright © 2020-2023  润新知