机器学习基础

机器学习基础
一、算法分类

（一）数据分类

不同的算法是针对不同的数据类型的，所以在了解算法之前，可以先了解以下数据的类型：
- 离散型数据
- 连续性数据
1、离散型数据

　　由记录不同类别个体的数目所得到的数据，又称计数数据，所有这些数据全部都是整数，而且不能再进行细分以及提高它们的精确度。

2、连续型数据

　　变量在某一范围内取任一数，即变量的取值可以是连续的，如长度、时间等，这类变量通常是含有小数部分。

注意的是：这两类数据的区别是离散型数据区间内不可分，连续性数据区间内可分。

（二）算法分类

算法从大的方面可分为下面两类：
- 监督学习
- 无监督学习
1、监督学习

　　监督学习（Supervised learning），可以由输入数据中学到或建立一个模型，并依此模式推测新的结果。输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值（称为回归），或是输出是有限个离散值（称作分类）。

在监督学习中又可分为下面几类：

（1）分类

　　k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络

（2）回归

　　线性回归、岭回归

（3）标注

　　隐马尔可夫模型

监督学习针对的预测数据是：特征值+目标值（比如根据人体特征来预测性别）

2、无监督学习

　　无监督学习（Supervised learning），可以由输入数据中学到或建立一个模型，并依此模式推测新的结果。输入数据是由输入特征值所组成。在无监督学习中有聚类算法，也就是k-means。

无监督学习针对的预测数据是：只有特征值，而无具体的目标值

3、数据与算法

上面已经进行了数据分类以及算法分类，那么两者之间的关系是什么呢？

监督学习中的分类算法针对的是目标值为离散型，回归算法针对的是目标值为连续型。即：

二、机器学习开发流程

1、获取数据

可以通过爬虫或者其它方式获取所需要的数据

2、明确问题

你应该明白用这些数据究竟是解决什么问题，也就是说根据目标值得类型（离散或是连续）确定应用种类。

3、数据处理

使用一些数据处理的库，如pandas等对数据进行处理缺失值等。

4、特征工程

对数据进行标准化、特征选择、降维等进行处理。

5、算法预测

在第2步中已经根据问题，明确了应用的分类，如果目标值是离散的就去找分类算法进行处理，如果目标值是连续的就去找回归算法进行处理。

6、模型评估

上面的算法加上数据就是模型，将模型做出来后需要进行评估，看是否满足需求，如果不满足就需要更换算法、参数或者重新进行特征工程（特征选取、降维）等。

7、上线使用

以API的形式对外提供
相关阅读:
[转] 64位Oracle 11g R2的客户端连接时报ORA-01019错误
 [转]Oracle11g链接提示未“在本地计算机注册“OraOLEDB.Oracle”解决方法
 [转]通过Net Manager 配置Oracle 11g本地监听服务(listener service)
[转]jQuery Mobile动态刷新页面样式
 [转]SSIS
[转]在SSIS中，使用“包配置”时的常见错误与解析
 使用JMH做Java微基准测试
 秒杀系统解决方案
 cookie机制和session机制
 app如何节省流量
原文地址：https://www.cnblogs.com/shenjianping/p/12905555.html

机器学习基础

一、算法分类

（一）数据分类

1、离散型数据

2、连续型数据

（二）算法分类

1、监督学习

2、无监督学习

3、数据与算法

二、机器学习开发流程

1、获取数据

2、明确问题

3、数据处理

4、特征工程

5、算法预测

6、模型评估

7、上线使用