机器学习基础

机器学习基础
1 认识机器学习

1.1 什么是机器学习

利用计算机从历史数据中找出规律（数学函数），并把这些规律用到对未来不确定场景的决策。

注意：是利用计算机分析数据（机器学习），而不是人（数据分析）。

1.2 从数据中寻找规律
- 概率论（基石）
- 数理统计（采样、描述统计、假设检验）
1.3 机器学习发展的原动力

从历史数据中找出规律，把这些规律用到对未来自动做出决定。
- 用数据代替expert。
- 经济驱动，数据变现。
1.4 业务系统发展的历史
- 基于专家经验
- 基于统计——分维度统计
- 机器学习——在线学习
注：机器学习分为离线机器学习和在线机器学习，在线机器学习强调实时性。

2 机器学习的典型应用

2.1 关联规则

购物篮分析（数据挖掘）
- 典型案例:“啤酒+尿布”案例
2.2 聚类

用户细分，精准营销
- 典型案例：中国移动分为神州大众卡、全球通、动感地带、神州行等
2.3 朴素贝叶斯和决策树

垃圾邮件识别
- 朴素贝叶斯
信用卡欺诈（风险识别）
- 决策树
2.4 ctr预估和协同过滤

互联网广告（广告顺序）
- ctr预估（预测概率）
推荐系统（电商推荐）
- 协同过滤
2.5 自然语言处理和图像识别

自然语言处理
- 情感分析（根据提供的一段文本，可以分析出是积极还是消极）
- 实体识别（从一篇文章中把人名、地名等主干识别出来）
图像识别
- 深度学习
3 数据分析与机器学习的区别

3.1 数据特点不同

数据特点对比

数据分析 机器学习

交易数据行为数据

少量数据海量数据

采样分析全量分析

注：交易数据就是跟钱有关的数据，行为数据就是如搜索历史、浏览历史等相关数据。

3.2 解决业务不同
- 数据分析：报告过去的事情
- 机器学习：预测未来的事情
3.3 技术手段不同
- 数据分析：用户驱动、交互式分析
- 机器学习：数据驱动、自动进行知识发现
3.4 参与者不同
- 数据分析：分析师
- 机器学习：数据+算法
4 常见的算法和分类

4.1 算法分类（1）

4.1.1 有监督学习
- 分类算法（知道具体的X、Y类）：X类（正常邮件）、Y类（垃圾邮件）
- 回归算法
4.1.2 无监督学习
- 聚类（不知道具体的X、Y类）
4.1.3 半监督学习（强化学习）
- 比如学习走路，是一个强化的过程
4.2 算法分类（2）
- 分类与回归
- 聚类
- 标注（标签）
4.3 算法分类（3）
- 生成模型：模糊判断、百分比、概率
- 判别模型：判断属于那个类型
注：生成模型与判别模型的关系就是X和E[X]的关系。

4.4 机器学习十大经典算法

十大经典算法简介

5 解决问题

5.1 机器学习解决问题（1）

确定目标->业务需求->数据->特征工程

5.2 机器学习解决问题（2）

训练模型
- 定义模型
- 定义损失函数
- 优化算法
模型评估
- 交叉验证
- 效果评估
作者：祁俊辉

出处：http://www.cnblogs.com/qijunhui/

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。
相关阅读:
郁闷的Alexa破10万。
回到杭州，2009开始了。
美剧。
英来网招聘：兼职js开发。（补充）
村姑的Beta 2.0，TT。
爆牙齿的Web标准面试考题II（iPhone SMS/iChat UI的Web标准实现）
天使飞来。
Web标准的未来，浏览器的未来，应用的未来。
咖啡厅与产品形态。
学习使用笔和纸。
原文地址：https://www.cnblogs.com/qijunhui/p/8283573.html

数据分析	机器学习
交易数据	行为数据
少量数据	海量数据
采样分析	全量分析

机器学习基础

1 认识机器学习

1.1 什么是机器学习

1.2 从数据中寻找规律

1.3 机器学习发展的原动力

1.4 业务系统发展的历史

2 机器学习的典型应用

2.1 关联规则

2.2 聚类

2.3 朴素贝叶斯和决策树

2.4 ctr预估和协同过滤

2.5 自然语言处理和图像识别

3 数据分析与机器学习的区别

3.1 数据特点不同

3.2 解决业务不同

3.3 技术手段不同

3.4 参与者不同

4 常见的算法和分类

4.1 算法分类（1）

4.1.1 有监督学习

4.1.2 无监督学习

4.1.3 半监督学习（强化学习）

4.2 算法分类（2）

4.3 算法分类（3）

4.4 机器学习十大经典算法

5 解决问题

5.1 机器学习解决问题（1）

5.2 机器学习解决问题（2）