• 机器学习基础


    1  认识机器学习

    1.1  什么是机器学习

    利用计算机从历史数据中找出规律(数学函数),并把这些规律用到对未来不确定场景的决策。

    注意:是利用计算机分析数据(机器学习),而不是人(数据分析)。

    1.2  从数据中寻找规律

    • 概率论(基石)
    • 数理统计(采样、描述统计、假设检验)

    1.3  机器学习发展的原动力

    从历史数据中找出规律,把这些规律用到对未来自动做出决定。

    • 用数据代替expert。
    • 经济驱动,数据变现。

    1.4  业务系统发展的历史

    • 基于专家经验
    • 基于统计——分维度统计
    • 机器学习——在线学习

    注:机器学习分为离线机器学习和在线机器学习,在线机器学习强调实时性。

    2  机器学习的典型应用

    2.1  关联规则

    购物篮分析(数据挖掘)

    • 典型案例:“啤酒+尿布”案例

    2.2  聚类

    用户细分,精准营销

    • 典型案例:中国移动分为神州大众卡、全球通、动感地带、神州行等

    2.3  朴素贝叶斯和决策树

    垃圾邮件识别

    • 朴素贝叶斯

    信用卡欺诈(风险识别)

    • 决策树

    2.4  ctr预估和协同过滤

    互联网广告(广告顺序)

    • ctr预估(预测概率)

    推荐系统(电商推荐)

    • 协同过滤

    2.5  自然语言处理和图像识别

    自然语言处理

    • 情感分析(根据提供的一段文本,可以分析出是积极还是消极)
    • 实体识别(从一篇文章中把人名、地名等主干识别出来)

    图像识别

    • 深度学习

    数据分析与机器学习的区别

    3.1  数据特点不同

    数据特点对比
    数据分析 机器学习
    交易数据 行为数据
    少量数据 海量数据
    采样分析 全量分析

    注:交易数据就是跟钱有关的数据,行为数据就是如搜索历史、浏览历史等相关数据。

    3.2  解决业务不同

    • 数据分析:报告过去的事情
    • 机器学习:预测未来的事情

    3.3  技术手段不同

    • 数据分析:用户驱动、交互式分析
    • 机器学习:数据驱动、自动进行知识发现

    3.4  参与者不同

    • 数据分析:分析师
    • 机器学习:数据+算法

    4  常见的算法和分类

    4.1  算法分类(1)

    4.1.1  有监督学习

    • 分类算法(知道具体的X、Y类):X类(正常邮件)、Y类(垃圾邮件)
    • 回归算法

    4.1.2  无监督学习

    • 聚类(不知道具体的X、Y类)

    4.1.3  半监督学习(强化学习)

    • 比如学习走路,是一个强化的过程

    4.2  算法分类(2)

    • 分类与回归
    • 聚类
    • 标注(标签)

    4.3  算法分类(3)

    • 生成模型:模糊判断、百分比、概率
    • 判别模型:判断属于那个类型

    注:生成模型与判别模型的关系就是X和E[X]的关系。

    4.4  机器学习十大经典算法

    十大经典算法简介

    5  解决问题

    5.1  机器学习解决问题(1)

    确定目标->业务需求->数据->特征工程

    5.2  机器学习解决问题(2)

    训练模型

    • 定义模型
    • 定义损失函数
    • 优化算法

    模型评估

    • 交叉验证
    • 效果评估
    作者:祁俊辉
    本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
  • 相关阅读:
    郁闷的Alexa破10万。
    回到杭州,2009开始了。
    美剧。
    英来网招聘:兼职js开发。(补充)
    村姑的Beta 2.0,TT。
    爆牙齿的Web标准面试考题II(iPhone SMS/iChat UI的Web标准实现)
    天使飞来。
    Web标准的未来,浏览器的未来,应用的未来。
    咖啡厅与产品形态。
    学习使用笔和纸。
  • 原文地址:https://www.cnblogs.com/qijunhui/p/8283573.html
Copyright © 2020-2023  润新知