课程老师:吴恩达
课程视频:网易云课堂-吴恩达机器学习 (最原始版本在Coursera)
一、初识机器学习
1. 什么是机器学习
(1)Arthur Samuel(1959)
Machine Learning :Field of study that gives computers the ability to learn without being explicitly programed.
中文:在没有明确设置的情况下,使计算机具有学习能力的研究领域
(2)Tom Mitchell(1998)
Well-posed learning problem:A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
中文:计算机从经验E中学习,去解决任务T,然后会有一个性能度量P。通过P测定在T上的表现因经验E而提高。
以下跳棋为例:
-
经验E是程序和自己玩几万局
-
任务T是下跳棋
-
性能P是和新对手玩跳棋胜的概率
2. 机器学习算法
机器学习主要有以下两种学习算法。
2.1. 有监督学习(Supervised learning)
2.1.1. 定义
有监督学习是指给定一堆数据集,这些数据集都是有正确答案的,让机器通过这些数据集去预测其它数据的结果。
2.1.2. 常见问题
(1)回归问题(regression)
回归问题是预测具体的数值输出。也就是说,将变量映射到某一个连续的函数上。
例如,给出房子大小和房价的数据。预测随便一个房子大小对应的房价。房价实际上是一个连续值。
(2)分类问题(classification)
分类问题是预测离散值输出。也就是说,将变量映射到某一些离散的集合里。
例如,给出一堆不同颜色的苹果和好坏的情况(只有好或坏)。然后预测其它苹果的好坏的情况,由于结果是要么是好,要么是坏,所以说预测的结果是离散的。
2.2. 无监督学习(Unsupervised learning)
2.2.1. 定义
无监督学习是指给定一堆没有指定答案的数据集,甚至不知这些数据集包含什么数据以及有什么特性,让机器自己去分析这些数据集。
2.2.2. 一些算法
(1)聚类算法
这是无监督学习的一种。简单来说,就是机器用无监督学习对数据进行分类。例如谷歌新闻的聚合,他自己把网络上所有信息抓取,然后自动将不同新闻归类。
(2)鸡尾酒宴会算法
两个人同时在说话,麦克风同时录到两个人的声音。让机器用无监督学习去分离两种声音。
这看起来很复杂,实际上简单到Octave的一行代码:
笔记参考