• 机器学习笔记导论


    《Machine Learning - A Probabilistic Perspective》

    作者:Kevin Patrick Murphy

    第一章:导论

    1.1 什么是机器学习,为什么需要机器学习。

      大数据时代,要求机器能自动分析数据,能从已知的数据中学习一些隐藏的模式,来预测未来的数据,或者执行一些决策。

      机器学习大体分为两类:预测或者有监督学习:这个方式需要有训练数据库,然后给定输入特征、属性或者协变量,给定输出的信息。如果输出的是类别信息,则称这类问题叫分类问题,或者模式识别问题。如果输出的是连续值,则称这类问题为回归问题regression)

      描述(descriptive)或者无监督学习:这类问题只有输入信息,而没有关于输入的任何结构、模式等信息。给定输入,需要挖掘其内在的一些模式,因此有时候叫知识挖掘knowledge discovery)。

      还有第三类学习方法,叫增强学习reinforcement learning),这类方法是用较少,

    1.2 有监督学习:

      分类问题:给定带有标注的输入数据,训练学习一个预测函数。然后,利用这个预测函数多新的样本进行预测或者标注,这个过程也就推广generalization)。

      利用概率模型,我们可以将这类问题描述为概率形成:

     

     

      利用MAP estimate原则,即最大化后验概率来决策。

      预测问题:给定的输入,输出可能是连续值。比如预测年龄、预测温度等值。

    1.3 无监督学习

      无监督学习意在发掘数据的“有意思”的结构信息,在这类方法中,从概率的角度讲,我们要构建带参数的概率密度估计

      无监督学习主要有以下几类:聚类算法、降维算法(高维数据显示)、图的结构挖掘、矩阵填充(matrix completion)。

      有监督学习通常的概率描述:

     

      无监督学习通常的概率描述:

    1.4 机器学习中的重要概念

      1,有参数模型和无参数模型;2,维度灾难;3,线性回归;Logistic回归;4,过拟合;5,模型选择;6,没有免费的午餐原理。

      没有免费的午餐原理】:我们在一个数据域上所做的假设,不一定在其他的数据域也同样工作的很好;实际上往往在其他域内性能很差。这个原理产生的结果是,我们开发出很多不同的模型,来覆盖现实世界中的不同的数据。

    【本文完】

  • 相关阅读:
    为什么会需要消息队列(MQ)?
    RBAC用户角色权限设计方案
    转:jquery 父、子页面之间页面元素的获取,方法的调用
    LeetCode Wiggle Subsequence
    LeetCode Longest Arithmetic Sequence
    LeetCode Continuous Subarray Sum
    LeetCode Maximum Length of Repeated Subarray
    LeetCode Is Subsequence
    LeetCode Integer Break
    LeetCode Largest Sum of Averages
  • 原文地址:https://www.cnblogs.com/hSheng/p/2811364.html
Copyright © 2020-2023  润新知