Evernote Export
机器学习应用
最早的机器学习:垃圾邮件分辨,对于邮件如何判断邮件是否是垃圾邮件呢
传统的解决思路:编写规则,定义"垃圾邮件",让计算机执行
1.编写一个传统算法,定义"垃圾邮件",让计算机执行
2.对于很多问题,规则很难定义
3.规则在不断变化
图像识别:分辨图像表示的是什么,典型问题就是二分类的问题
机器学习的算法,如何评价算法的好坏
如何解决过拟合和欠拟合的情况
如何调节算法的参数
验证算法的正确性
机器学习基础
数据
萼片长度 | 萼片宽度 | 花瓣长度 | 花瓣宽度 | 种类 |
---|---|---|---|---|
5.1 | 3.5 | 1.4 | 0.2 | se(0) |
7.0 | 3.2 | 4.7 | 1.4 | ve(1) |
6.3 | 3.3 | 6 | 2.5 | vi(2) |
以莺尾花数据集为例,介绍数据
- 数据整体叫数据集(data set)
- 每一行数据称为一个样本(sample)
- 除最后一列,每一列表达样本的一个特征(feature)
- 最后一列表示的是结果,通常称为标签(label)
对于数据特征,我们用X表示
通常第i个样本写作Xi第i个样本第j个特征值Xji,第i个标记写作yi
行是特征,每一行表示特征向量Xi
特征空间(feature space)
分类任务本身就是在特征空间切分
在高位空间同理
特征可以很抽象 - 图像,每一个像素点都是特征
- 28* 28的图像有784个特征
- 如果是彩色的特征更多
分类任务
一般来说分类就是二分类的任务
多分类任务
一些算法只能完成二分类任务
多分类任务可以转换成为二分类任务
有一些算法天然可以完成多分类任务
多标签分类
回归任务
回归任务:结果是一个连续的数字的值,而非一个类别
房屋价格
市场分析
学生成绩
股票价格
- 有一些算法只能解决回归问题
- 有一些算法只能解决分类问题
什么是机器学习
输入大量资料->机器学习算法->模型f(x)->输入样例->输出结果
监督学习、非监督学习、半监督学习和强化学习
- 监督学习:给机器的训练数据拥有"标记"或者"答案"
图像已经拥有了标定信息 银行已经积累了一定的客户信息和信用卡的信用卡情况 医院积累一定的病人信息和最终确诊是否患病的情况 市场积累了房屋的基本信息和最终成交的金额
-
非监督学习:给机器的训练数据没有任何标记和答案
非监督学习的意义:
1.对没有进行标记的数据进行分类-聚类分析
2.对数据进行降维处理- 特征提取:信用卡的信用评级和人的胖瘦关系
- 特征压缩:PCA,针对高维数据进行处理,尽量少的损失,将高维数据压缩为低维数据
- 非监督学习的降维处理意义:便于可视化
- 异常检测:数据中存在的点具有异常的值
-
半监督学习:一部分数据有"标记"或"答案",另一部分数据没有 (更常见)各种原因的缺失
先使用无监督学习手段对数据进行处理,之后使用监督学习手段做模型的训练和预测 -
增强学习:根据周围环境,采取行动,根据采取行动的结果,学习行动方式
-
行动中加上奖励、惩罚机制,然后进行反馈循环
机器学习的其他分类
- 批量学习(离线学习) Batch Learning
优点:简单
问题:如何适应环境的变化
解决方案:定时重新批量学习
缺点:每次重新批量学习,运算量巨大 - 在线学习 Online Learning