1统计学习(也称统计机器学习)
1.1统计学习定义:
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。
统计学习就是计算机系统通过运用数据及统 计方法提高系统性能的机器学习。
1.2统计学习的对象:
是数据,他从数据出发,提取数据特征 ,抽象出数据模型,发现数据中的知识,又回到数据分析与预测中去。
在统计学习过程中,以变量或变量组表示数据。数据分为连续变量和离散变量表示的类型。本笔记的书以离散变量的方法为主。
1.3统计学习的目的:
用于对数据进行预测与分析,特别是对未知新数据。可以使计算机更加智能化,或者使计算机的某些性能得到提高,可以让人们获取新知识,给人们带来新的发现。,对数据的分析与预测是通过构建概率统计模型实现的。统计学习的总目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析。
1.4统计学习的方法:
是基于数据构建统计模型从而对数据进行预测和分析。统计学习由监督学习、非监督学习、半监督学习和强化学习组成。(本笔记主要讨论监督学习)
主要讨论监督学习,这种情况下统计方法可以概括如下:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,成为假设空间;应用某个评价准则,从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据在给定的评价准则下最优预测;最优模型的选取由算法实现。这样统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,称其为统计学习方法的三要素简称:模型、策略和算法。
1.5实现统计学习方法的步骤:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或分析。