• 统计学习方法概论


    统计学习是一门既有趣又枯燥的概念。有趣在于研究的结果往往能够对我们有启发性的作用,枯燥在于我们在学习它的时候是需要花费不少时间的,对于一些概念的理解,对于模型的选择等等都是一大堆的数学公式,刚刚入门的我们往往觉得这里有些无趣。

    统计学习具有很多专业性词汇,在国内目前的教材普遍上不够优秀的情况下,阅读国外的书籍是极有必要的,然而如果对英语不太熟悉的话,读起来也是很费时间的,所以从个人角度出发的话,推荐先读一本中文的入门书籍,也就是我手上的这本李航先生编写的统计学习方法了。

    如下我针对这本书的第一章做一个总结

    1.统计学习

      统计学习分为监督学习、非监督学习、半监督学习、强化学习等。初入门的菜鸟比如我最开始研究的应该就是这里的监督学习了。

    2.监督学习

      也称有指导学习,即有结果变量指导学习过程,一般使用分类、回归等算法实现。

    3.统计学习三要素

      模型、策略、算法

    4.模型评估与模型选择

      这是一个比较重要的概念了,比如我们在实现目标的时候一般会提出多种方案,或者说是多种模型,那么怎么选择模型呢?这个时候就需要理论指导实践了,主要涉及到损失函数和过拟合,模型复杂度等概念。

    5.正则化与交叉验证

      正则化是选择模型的一种方法,就是对最小化经验误差函数上加约束,这种约束可以理解为先验知识。交叉验证则是通过把数据集分为训练集、测试集、验证集(一般没有用)来进行模型的选择。

    6.泛化能力

      所谓泛化能力,是指学习到的模型对未知数据的预测能力。一般使用测试误差来评价一种模型的泛化能力。

    7.生成模型与判别模型

      由数据学习联合概率密度分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:P(Y|X)= P(X,Y)/ P(X)。

      由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。

    8.分类问题

      监督学习的核心问题之一,从字面上即可理解。分类的方法有:knn,感知机,朴素贝叶斯,决策树,Logistic regression等。

    9.标注问题

      可以看做是分类问题的一种推广,标注问题的输入时一个观测序列,输出时一个标记序列或状态序列。

    10.回归问题

      回归也是监督学习的核心问题之一,用于预测输入和输出之间的关系。可以分为一元回归和多元回归。

  • 相关阅读:
    [LeetCode] 875. Koko Eating Bananas 科科吃香蕉
    [LeetCode] 874. Walking Robot Simulation 走路机器人仿真
    [LeetCode] 995. Minimum Number of K Consecutive Bit Flips 连续K位翻转的最小次数
    [LeetCode] 873. Length of Longest Fibonacci Subsequence 最长的斐波那契序列长度
    [LeetCode] 872. Leaf-Similar Trees 叶结点相似的树
    [LeetCode] 870. Advantage Shuffle 优势洗牌
    [LeetCode] 869. Reordered Power of 2 重新排序为2的倍数
    [LeetCode] 868. Binary Gap 二进制间隙
    [LeetCode] 867. Transpose Matrix 转置矩阵
    [LeetCode] 866. Prime Palindrome 质数回文数
  • 原文地址:https://www.cnblogs.com/nice-forever/p/4833773.html
Copyright © 2020-2023  润新知