机器学习笔记导论

机器学习笔记导论

《Machine Learning - A Probabilistic Perspective》

作者：Kevin Patrick Murphy

第一章：导论

1.1 什么是机器学习，为什么需要机器学习。

　　大数据时代，要求机器能自动分析数据，能从已知的数据中学习一些隐藏的模式，来预测未来的数据，或者执行一些决策。

　　机器学习大体分为两类：预测或者有监督学习：这个方式需要有训练数据库，然后给定输入特征、属性或者协变量，给定输出的信息。如果输出的是类别信息，则称这类问题叫分类问题，或者模式识别问题。如果输出的是连续值，则称这类问题为回归问题（regression)。

　　描述（descriptive）或者无监督学习：这类问题只有输入信息，而没有关于输入的任何结构、模式等信息。给定输入，需要挖掘其内在的一些模式，因此有时候叫知识挖掘（knowledge discovery）。

　　还有第三类学习方法，叫增强学习（reinforcement learning），这类方法是用较少，

1.2 有监督学习：

　　分类问题：给定带有标注的输入数据，训练学习一个预测函数。然后，利用这个预测函数多新的样本进行预测或者标注，这个过程也就推广（generalization）。

　　利用概率模型，我们可以将这类问题描述为概率形成：

　　利用MAP estimate原则，即最大化后验概率来决策。

　　预测问题：给定的输入，输出可能是连续值。比如预测年龄、预测温度等值。

1.3 无监督学习

　　无监督学习意在发掘数据的“有意思”的结构信息，在这类方法中，从概率的角度讲，我们要构建带参数的概率密度估计。

　　无监督学习主要有以下几类：聚类算法、降维算法（高维数据显示）、图的结构挖掘、矩阵填充（matrix completion）。

　　有监督学习通常的概率描述：

　　无监督学习通常的概率描述：

1.4 机器学习中的重要概念

　　1，有参数模型和无参数模型；2，维度灾难；3，线性回归；Logistic回归；4，过拟合；5，模型选择；6，没有免费的午餐原理。

　　【没有免费的午餐原理】：我们在一个数据域上所做的假设，不一定在其他的数据域也同样工作的很好；实际上往往在其他域内性能很差。这个原理产生的结果是，我们开发出很多不同的模型，来覆盖现实世界中的不同的数据。

【本文完】
相关阅读:
为什么会需要消息队列(MQ)？
RBAC用户角色权限设计方案
 转：jquery 父、子页面之间页面元素的获取，方法的调用
 LeetCode Wiggle Subsequence
LeetCode Longest Arithmetic Sequence
LeetCode Continuous Subarray Sum
LeetCode Maximum Length of Repeated Subarray
LeetCode Is Subsequence
LeetCode Integer Break
LeetCode Largest Sum of Averages
原文地址：https://www.cnblogs.com/hSheng/p/2811364.html