机器学习基础

系列文章：《机器学习实战》学习笔记

这是《机器学习实战》的第一章，本章简要介绍了下什么是机器学习、机器学习的主要任务和本书中将要用到的Python语言。现在机器学习（Machine learning）与人工智能（Artificial intelligence）这么火，介绍机器学习的文章网上有很多，有很多已经写得相当好了，比如这篇：从机器学习谈起，值得好好看看。本文肯定不会介绍得那样全，只是讨论《机器学习实战》这本书中提到的一些机器学习基础知识。

机器学习能让我们自数据集中受到启发，换句话说，我们会利用计算机来彰显数据背后的真实含义。它既不是只会徒然模仿的机器人，也不是具有人类感情的仿生人。

现今，机器学习已应用于多个领域，远超出大多数人的想象——

搜索引擎结果排序
垃圾邮件过滤器
商品推荐
手写识别软件
贷款信用判定
……

1. 何谓机器学习

简单来说，机器学习是一个从无序数据中提取有用信息的过程。它横跨计算机科学、工程技术和统计学等多个学科，需要多学科的知识。

互联网时代，人们制造、收集了大量的数据，如何从这些数据中抽取出有价值的信息是一个非常值得研究的课题。现在也是个“数据为王”的年代，各个公司都在疯狂得搜集用户数据，个人信息、使用习惯、搜索记录、观看记录甚至电子邮件内容……希望能从中发现用户的喜好，挖掘用户的需求。可谓谁拥有数据，谁就有下一个机会。然而光有这些数据是不够的，海量的数据已经超出了直接计算的可行性，想要从中高效地提取信息就需要专门的学习算法，这就是机器学习的作用所在。我们需要机器学习算法，避免我们“迷失”在数据中，而找到更多的可用信息。

1 机器学习与统计学

顺便说一句，机器学习同统计学有着很深的渊源。在计算机出现以前，统计学家早就做着分析、预测的工作。机器学习可以说是计算机科学同统计学的一个结合点，利用计算机工具将统计学理论转化为代码，应用在了更多领域。而机器学习和统计学现在也有一些区别，这也不单是理论与应用的问题，还有一些不同的关注点和侧重点。关于这方面的讨论也有很多可读的文章：

2 关键术语

书中使用了一个简单的“鸟类分类系统”作为切入点，介绍了机器学习算法中常用到的基本术语。这个系统用到的鸟物种分类表如下：

基于四种特征的鸟物种分类表
序号	体重（克）	翼展（厘米）	脚蹼	后背颜色	种属
1	1000.1	125.0	无	棕色	红尾鵟
2	3000.7	200.0	无	灰色	鹭鹰
3	3300.0	220.3	无	灰色	鹭鹰
4	4100.0	136.0	有	黑色	普通潜鸟
5	3.0	11.0	无	绿色	瑰丽蜂鸟
6	570.0	75.0	无	黑色	象牙喙啄木鸟

我们称其为一个专家系统，因为它可以像一个研究鸟类的专家一样识别鸟类的种属。表中使用了四种不同的属性值来区分不同鸟类。现实中，你可能会想测量更多的值。通常的做法是测量所有可测属性，而后再挑选出重要部分。我们称使用的这四种属性为特征。表中的每一行都是一个具有相关特征的实例或称样本。

1 特征数值的类型

表中的前两种特征是连续型（数值型）的，即它的取值是连续的实数；第三种特征是二值型的，只可以取是或否；第四种特征是基于有限颜色范围的枚举型。我们称二值型、枚举型这样只可以取有限个值的特征为离散型（标称型）的。

2 机器学习的任务——分类

鸟类分类系统完成的是一个分类任务。这很好理解，因为这个系统要做的事是分给未知的（鸟类）样本一个已知的种类。

3 机器学习算法的流程

我们首先要做的是算法训练，即学习如何分类。即为算法输入大量已分类数据作为算法的训练集。训练集是用于训练机器学习算法的数据样本集合。表中即包含六个训练样本的训练集。每个训练样本有若干个特征（本例为4个）和一个目标变量（表示样本所属的类别）。目标变量是机器学习算法的预测结果，在分类算法中目标变量的类型通常是标称型的。我们通常将分类问题中的目标变量称为类别，并假定分类问题只存在有限个数的类别。

为了测试机器学习算法的效果，通常将现有数据分为两套独立的数据集：训练数据和测试数据。当机器学习程序开始运行时，使用训练样本作为算法的输入，训练完成之后输入测试样本。输入测试样本时并不提供测试样本的目标变量，而是由程序决定样本的类别。通过比较程序预测的样本类别与实际样本类别（目标变量）之间的差异，就可以得出算法的实际精确度。

我们称算法输出的结果为模型。经过训练、测试准确率良好的模型就可以被保存下来，用于对未知的鸟类样本分类。

废了半天话，是时候祭出这张经典的流程图了（图自李航《统计学习方法》）：

4 机器学习的其他任务

机器学习的另一项任务是回归，它主要用于预测数值型数据。一个很经典的例子就是统计学中的数据拟合曲线：给定数据点，计算最优拟合曲线，目标变量即这条曲线的参数。

分类和回归均属于监督学习（Supervised learning），即这类算法知道预测什么（存在目标变量）。

与之对应的是无监督学习（Unsupervised learning），此时数据没有类别信息，也不会给定目标值。在无监督学习中，将数据集合分成由类似的对象组成的多个类的过程被称为聚类；将寻找描述数据统计值的过程称之为密度估计。此外，还包括减少数据特征的维度的算法，被称为降维。

2. 寻找合适的机器学习算法

为一个实际问题应用机器学习算法时，可以从如下方面分别考虑：

1. 使用机器学习算法的目的（目标任务）。如果已有部分样本和目标变量，想要预测未知样本的目标变量的值，则可以选择监督学习算法——根据目标变量的类型可以进一步分为分类算法（对离散型目标变量）和回归算法（对连续型目标变量）。如果没有或不存在样本类型信息，则可以选择无监督学习算法——使用聚类算法将数据划分为若干类；使用密度估计算法估计数据与每个分类的相似度（匹配度）。

2. 其次需要考虑的是数据问题。我们应该充分了解数据的特性，没有统一的学习算法，（任何问题）都需要根据具体的数据做相应处理。需要考虑的问题有——数据的特征数量，特征值是离线型变量还是连续型变量，特征值的取值范围，特征值的分布（是否分布不均、有些值很少出现），特征值中是否存在缺失的值，造成缺失的原因，数据中是否存在异常的值（数据是否完全可信），等等。

3. 多次试验。一般并不存在最好的算法，尝试不同算法的执行效果，比较其准确率、计算时间，综合决定最终使用的机器学习算法。

3. 开发机器学习应用程序的步骤

收集数据。有很多方法收集样本数据，如：制作网络爬虫从网站上抽取数据、从API中得到信息、设备传感器发来的实测数据等等。
准备输入数据。将数据转换为计算机可处理的格式，如将离散数据转换为整数值、填充缺失数据为特定的值。
分析输入数据。如果数据的特征值低于三维，可以将这些数据点绘制出来，人工分析数据的特征，看是否有明显的分布模式、是否存在明显的异常值。对于大于三维的数据，可以使用降维的方法压缩到三维以下，方便我们图形化展示数据。这一步的主要作用是确保没有垃圾数据，否则将降低算法性能。
训练算法。机器学习算法从这一步才真正开始学习。对于无监督学习，因为不存在目标变量值，故不需要训练算法，所有的算法集中在第五步。
测试算法。对于监督学习，在测试的步骤使用测试数据检测算法的准确率（性能）；对于无监督学习，运行机器学习算法，并使用其它方式检验算法性能。
使用算法。将机器学习算法转换为应用程序，执行实际任务，以检验上述步骤是否可以在实际环境中正常工作。

4. 使用Python语言实现机器学习算法

本书中使用Python语言编写实际代码。Python语言具有很多优点（清晰的语法结构、可读性、丰富的函数库、高级的语法特性……），使其很适合用来实现机器学习算法。但是性能问题始终是Python语言最大的问题。由于它是一门解释性语言，始终过不了性能这道坎儿。对此，可以使用PyPy这类带有JIT的Python发行版，但是追求性能的场合终究还是逃不掉C和C++的。

——没关系，把Python作为机器学习的教学语言还是足够的。

书中的附录部分有简单介绍Python的语法，在本文中再写这些就没意思了。Python的入门门槛很低，网上有很多优秀的教程可供参考（比如这个：简明Python教程）。

书中广泛使用了Python的一个函数库：NumPy，这个可谓Python做线性代数运算的必备函数库，广泛应用于不仅机器学习的各个数学计算领域。

在这里假设已经安装了Python开发环境和NumPy函数库。

在Python shell中输入下列命令，将NumPy函数库中的所有模块导入当前的命名空间：

from numpy import *

生成一个4x4的随机数组(array)：

random.rand(4,4)

可见其数据类型为array，这是NumPy中的两大主要类型之一。

将数组转换为矩阵：

randMat = mat(random.rand(4,4))

可见其数据类型为mat，这是NumPy中的另一个主要类型。

矩阵求逆：

invRandMat = randMat.I

矩阵乘法：

randMat * invRandMat

获得一个4x4单位矩阵：

myEye = eye(4)

学习资源汇总

博客文章：《从机器学习谈起》、《Brief History of Machine Learning》

书籍：李航《统计学习方法》

在线学习资源：Coursera公开课 - Machine Learning、Coursera公开课 - 機器學習基石 (Machine Learning Foundations)（中文的哦），这两个课程的老师分别是Andrew Ng和林軒田，也都是这个领域的大牛。

Python在线学习资源：简明Python教程

以及隆重推荐这位大神的博客：

http://blog.csdn.net/stdcoutzyx

相关阅读:
查询两门及其以上不及格课程的同学的学号，姓名及其平均成绩从SC表中选取score小于60的，并group by sid，having count 大于1
SQL经典实例书上的数据代码
 mysql练习题
 mysql中alter语句
 如何解决SSH登录Solaris主机速度慢的问题
 Solaris10安装配置LDAP(iPlanet Directory Server )
Oracle 11g oracle 用户密码过期问题 (ZT)
Changing Controller Numbers in Solaris
SPARC T4 RAID Setup (ZT)
Oracle11g 配置DG broker
原文地址：https://www.cnblogs.com/qwertWZ/p/4576250.html