1 认识机器学习
1.1 什么是机器学习
利用计算机从历史数据中找出规律(数学函数),并把这些规律用到对未来不确定场景的决策。
注意:是利用计算机分析数据(机器学习),而不是人(数据分析)。
1.2 从数据中寻找规律
- 概率论(基石)
- 数理统计(采样、描述统计、假设检验)
1.3 机器学习发展的原动力
从历史数据中找出规律,把这些规律用到对未来自动做出决定。
- 用数据代替expert。
- 经济驱动,数据变现。
1.4 业务系统发展的历史
- 基于专家经验
- 基于统计——分维度统计
- 机器学习——在线学习
注:机器学习分为离线机器学习和在线机器学习,在线机器学习强调实时性。
2 机器学习的典型应用
2.1 关联规则
购物篮分析(数据挖掘)
- 典型案例:“啤酒+尿布”案例
2.2 聚类
用户细分,精准营销
- 典型案例:中国移动分为神州大众卡、全球通、动感地带、神州行等
2.3 朴素贝叶斯和决策树
垃圾邮件识别
- 朴素贝叶斯
信用卡欺诈(风险识别)
- 决策树
2.4 ctr预估和协同过滤
互联网广告(广告顺序)
- ctr预估(预测概率)
推荐系统(电商推荐)
- 协同过滤
2.5 自然语言处理和图像识别
自然语言处理
- 情感分析(根据提供的一段文本,可以分析出是积极还是消极)
- 实体识别(从一篇文章中把人名、地名等主干识别出来)
图像识别
- 深度学习
3 数据分析与机器学习的区别
3.1 数据特点不同
数据分析 | 机器学习 |
交易数据 | 行为数据 |
少量数据 | 海量数据 |
采样分析 | 全量分析 |
注:交易数据就是跟钱有关的数据,行为数据就是如搜索历史、浏览历史等相关数据。
3.2 解决业务不同
- 数据分析:报告过去的事情
- 机器学习:预测未来的事情
3.3 技术手段不同
- 数据分析:用户驱动、交互式分析
- 机器学习:数据驱动、自动进行知识发现
3.4 参与者不同
- 数据分析:分析师
- 机器学习:数据+算法
4 常见的算法和分类
4.1 算法分类(1)
4.1.1 有监督学习
- 分类算法(知道具体的X、Y类):X类(正常邮件)、Y类(垃圾邮件)
- 回归算法
4.1.2 无监督学习
- 聚类(不知道具体的X、Y类)
4.1.3 半监督学习(强化学习)
- 比如学习走路,是一个强化的过程
4.2 算法分类(2)
- 分类与回归
- 聚类
- 标注(标签)
4.3 算法分类(3)
- 生成模型:模糊判断、百分比、概率
- 判别模型:判断属于那个类型
注:生成模型与判别模型的关系就是X和E[X]的关系。
4.4 机器学习十大经典算法
5 解决问题
5.1 机器学习解决问题(1)
确定目标->业务需求->数据->特征工程
5.2 机器学习解决问题(2)
训练模型
- 定义模型
- 定义损失函数
- 优化算法
模型评估
- 交叉验证
- 效果评估