• 统计学习方法-李航 第一章


    第一章 统计学习方法概论

    学习:如果一个系统能够通过执行某个过程改进它的性能,这就是学习

    监督学习:从训练数据集中学习模型,对测试数据进行预测

    回归问题:输入变量与输出变量均为连续变量的预测问题

    分类问题:输出变量为有限个离散变量的预测问题

    标注问题:输入变量与输出变量均为变量序列的预测问题

    损失函数:度量预测错误的程度

    经验风险:训练数据集的平均损失

    期望风险:损失函数的期望值

    根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险

    泛化能力:指由该方法学习到的模型对未知数据的预测能力

    过拟合:指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象

    如果训练数据本身存在噪声,拟合曲线对未知数据的预测能力并不好

    模型选择时,不仅要考虑对已知数据的预测能力,而且要考虑对未知数据的预测能力

    正则化:在经验风险上加一个正则化项或罚项

    奥卡姆剃刀原理:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型,也是应该选择的模型

    交叉验证:首先随机地将已知数据切分为S个互不相交的大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试数据;

    将这一过程对可能的S种选择重复进行,最后选出S次测评中平均测试误差最小的模型。

    TP:将正类预测为正类数

    FN:将正类预测为负类数

    FP:将负类预测为正类数

    TN:将负类预测为负类数

    精确率:P=TP/(TP+FP)

    召回率:R=TP/(TP+FN)

    2/F1=1/P + 1/R

    伯努利模型:定义在取值为0和1的随机变量上的概率分布。

    假设观测到伯努利模型n次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。

    机器学习:在计算机系统中,经验通常以数据形式存在,机器学习所研究的主要内容,是关于在计算机上从数据产生模型的算法,即学习算法。

    有了学习算法,我们把经验数据提供给他,它就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应的判断。



  • 相关阅读:
    Ubuntu 12.04 安装scribe 的笔记 | 动漫驿站
    boost install on prinse 12.04 ubuntu
    basic coder » linux下获取当前程序的绝对路径
    spring 使用 groovy 的 utf8 问题
    string转化大小写(C++) | Vimer的程序世界
    linux常用命令一
    STL map与Boost unordered_map 有何不可的日志 网易博客
    本博使用的vim(gvim)相关插件整理
    【转】C++11中值得关注的几大变化 奔向C++ C++博客
    Lua 语言和C/C++集成调研小结
  • 原文地址:https://www.cnblogs.com/flymeng/p/7211900.html
Copyright © 2020-2023  润新知