• 《统计学习方法》第一章学习笔记


    题外话(非书中所有):统计学习书中讲到的方法和一般机器学习类书籍讲到的方法很像,那么统计学习和机器学习的区别在哪?从网上查了一些资料没找到明显的区别,如果有,大概是统计学习中的方法都是理论上可以证明的,机器学习中的方法更讲究实用,虽然理论上可能还未证明。如最近比较热的Deep Learning,就是理论上还未证明其正确性。

    一、统计学习的特点:

         统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。

         实现统计学习方法的步骤:

        1)得到一个有限的训练数据集;

      2)确定包含所有可能的模型的假设空间;

        3)确定模型选择的准则,即学习的策略

        4)实现求解最优模型的算法

        5)选择最优模型,对新数据进行预测或分析;

    二、基本概念:

        输入与输出所有可能取值的集合分别称为输入空间输出空间。每个具体的输入是一个实例,通常由特征向量表示。所有特征向量存在的空间称为特征空间。模型实际都是定义在特征空间上的。

        根据输入、输出变量的不同,可以将统计学习问题划分为:回归问题——输入、输出均为连续变量,分类问题——输入连续、输出离散,标注问题——输入、输出均为变量序列,如给句子分词、标词性等问题。感兴趣的可以想想,如果输入为离散,输出为连续,像预测房屋价格这样的问题,属于哪一类?应如何解决?

        监督学习的模型可以是概率模型或非概率模型,由条件概率分布 ( P(Y | X) ) 或决策函数(decision function) ( Y=f(X) ) 表示,随具体学习方法而定。

     三、统计学习三要素:

       1)模型:

          模型是指所要学习的条件概率分布或决策函数,模型所组成的空间为假设空间,根据模型为概率模型或非概率模型,假设空间可以表示为:

    ( F = ig{ f | Y=f(X) ig} )   或   ( F = ig{ P | P(Y|X) ig} )   

          用参数空间表示即为:  ( F = ig{ f | Y=f_{ heta}(X), heta in R^{n} ig} )   或    ( F = ig{ P | P_{ heta}(Y|X),  heta in R^{n} ig} )

       2)策略:

      1、损失函数和风险函数:

          为了从假设空间中选取最优模型,引入损失函数与风险函数的概念,损失函数度量模型一次的预测结果的好坏,风险函数度量平均意义下模型预测的好坏。

          常用的损失函数有:

    1. 0-1损失函数   ( L(Y, f(X)) = egin{cases}1, & Y eq f(X) \ 0, & Y = f(X) end{cases} )
    2. 平方损失函数  ( L(Y, f(X)) = (Y - f(X))^2 )
    3. 对数损失函数  ( L(Y, P(Y|X))=-logP(Y|X) )    

          风险函数,即损失函数的期望: ( R_{exp} = E_{P}[L(Y, f(X))] = int_{X imes Y} L(y, f(x)) P(x,y) dxdy ) ,这里 ( P(X,Y) ) 是输入、输出变量 ( (X,Y) )

    的联合概率分布,当然 ( P(X,Y) ) 是未知的。如果知道 ( P(X,Y) ) ,就可以从联合分布求出条件概率分布  ( P(X,Y) ) , 也就不需要学习了。 

          经验风险,即关于训练数据集的平均损失, ( R_{emp}(f) = frac{1}{N} sum_{i=1}^{N} L(y_{i}, f(x_{i})) ) 。根据大数定律,当样本容量N趋于无穷时,经验风险 ( R_{emp}(f) ) 趋于期望风险 ( R_{exp}(f) ) 。所以很自然的想法是用经验风险估计期望风险,但由于训练样本有限,甚至很小,所以用经验风险估计期望风险并不理想,要对经验风险进行一定的矫正。这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化。

       2、经验风险最小化和结构风险最小化:

          经验风险最小化,就是求解最优化问题: ( min_{f in F}   frac{1}{N} sum_{i=1}^{N} L(y_{i}, f(x_{i})) ) ,其中 ( F ) 是假设空间。

          结构风险最小化,是为了防止过拟合,而在经验风险基础上加上表示模型复杂度的正则化项或罚项,定义为: ( R_{srm}(f) = frac{1}{N} sum_{i=1}^{N} L(y_{i}, f(x_{i})) + lambda J(f) ) ,( lambda geq 0 ) ,其中 ( J(f) ) 为模型的复杂度,是定义在假设空间 ( F ) 上的泛函。模型 ( f ) 越复杂,复杂度 ( J(f) ) 就越大。

          书中提到,贝叶斯估计中的最大后验概率估计就是结构风险最小化。因为 (  heta = max_{ heta} f(x| heta ) h( heta ) = max_{ heta} [log f(x| heta) + log h( heta )]  = min_{ heta } [-log f( x| heta) - log h( heta )]  ),所以当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化等价于最大后验概率估计。

         正则化,是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项,它的一般形式即 (R_{srm} )的定义。正则化项可以取不同的形式,如回归问题中,正则化项可以是参数向量的 ( L_{2} )范数:

  • 相关阅读:
    3.创建第一个android项目
    2.SDK目录结构和adb工具及命令介绍
    1.安卓开发之环境搭建
    组成原理习题(一)
    微软职位内部推荐-Software Development Engineer II
    微软职位内部推荐-Enterprise Architect
    微软职位内部推荐-Senior NLP Scientist & Developer
    微软职位内部推荐-Sr DEV Lead, Bing Search Relevance
    微软职位内部推荐-Principal DEV Manager for Bing Client
    微软职位内部推荐-Principal Dev Manager for Windows Phone Shell
  • 原文地址:https://www.cnblogs.com/thinkers-dym/p/3457111.html
Copyright © 2020-2023  润新知