• ACA


    一、机器学习介绍

    机器通过统计学算法,对大量的历史数据进行学习从而生成经验模型,利用经验模型指导业务。

    机器学习常见分类

    1.监督学习

    监督学习( Supervised learning ) : 利用一组已知类别的样本来训练模型,使其达到性能要求。其特点为输入数据(训练数据)均有个明确的标识或结果 (标签)。即我们提供样例 "教"计算机如何学习。

    有监督学习算法主要包括分类、回归等。

    例如(分类、回归):


    2.无监督学习

    无监督学习( Unsupervised learning ) : 从无标记的训练数据中推断结论。其特点为输入数据(训练数据)不存在明确的标识或结果(标签)。常见的无监督学习为聚类,即发现隐藏的模式或者对数据进行分组。即计算机根据我们提供的材料"自动”学习,给定数据,寻找隐藏的结构或模式。

    例如:

    机器学习应用案例

    个性化推荐引擎(淘宝推荐系统)、蚂蚁芝麻信用、光学文字识别...

    二、阿里云机器学习PAI平台

    阿里云机器学习平台PAI是基于MaxCompute提供数据处理、建模、离线预测、在线预测等服务的大型机器学习平台,为算法开发者提供了丰富的MPI、PS、 BSP等编程框架和数据存取接口,同时提供了基于Web的可视化控制台,降低了使用门槛。

    PAI支持的算法

    PAI深度学习框架

    离线模型、在线预测

    三、分类算法 KNN

    分类算法通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。分类算法的应用非常广泛,银行风险评估、客户类别分类、文本检索和搜索引擎分类、安全领域中的入侵检测以及软件项目中的应用等。

    按原理分类:

    ■基于统计的:如贝叶斯分类
    ■基于规则的:如决策树算法
    ■基于神经网络的:神经网络算法
    ■基于距离的: KNN ( K最近邻)

    常用评估指标:

    ■精确率:预测结果与实际结果的比例
    ■召回率:预测结果中某类结果的正确覆盖率
    ■F1-Score :统计量,综合评估分类模型,取值在0-1之间

    KNN

    实现步骤




    KNN优点

    ■原理简单,容易理解,容易实现
    ■重新训练代价较低
    ■时间、空间复杂度取决于训练集(一般不算太大)

    KNN缺点

    ■KNN属于lazy learning算法,得到结果的及时性差
    ■k值对结果影响大(试想下k=1和k=N的极端情况)
    ■不同类记录相差较大时容易误判
    ■样本点较多时,计算量较大
    ■相对于决策树,结果可解释性不强

    应用流程

    四、聚类算法 K-Means

    聚类:就是将相似的事物聚集在一起 ,而将不相似的事物划分到不同的类别的过程。它是一种探索性的分析,不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。

    常见算法:

    层次聚类、划分聚类、基于密度的聚类

    K-Means

    实现步骤






    K-Means优点

    ■原理简单,容易理解,容易实现
    ■聚类结果容易解释
    ■聚类结果相对较好

    K-Means缺点:

    ■分类个数k需要事先指定,且指定的k值不同,聚类结果相差较大
    ■初始的k个类簇中心对最终结果有影响,选择不同,结果可能会不同
    ■能识别的类簇仅为球状,非球状的聚类效果很差
    ■样本点较多时,计算量较大
    ■对异常值敏感,对离散值需要特殊处理

    应用流程

    五、机器学习是常用流程

    1.CRISP-DM

    CRISP-DM (cross-industry standard process for data mining),即为”跨行业数据挖掘标准流程"。此KDD过程模型于1999年欧盟机构联合起草。为KDD提供了一个完整的过程描述。

    业务理解-- Business Understanding

    理解项目目标,理解业务需求,并转换成技术需求

    数据理解-- Data Understanding

    数据搜集,熟悉数据,识别质量,了解数据大概属性

    数据准备-- Data Preparation

    构造最终输入数据集,包括选择、转换、清洗等

    数据建模-- Modeling

    选择、应用不同模型、算法,调整参数到最优

    模型评估-- Evaluation

    评估模型,确保可完成业务目标

    方案实施-- Deployment

    2.SEMMA

    Sample :数据采样

    从总体数据中采样,使用合适的采样方法,同时注意数据质量

    Explore :数据探索

    通过探索式数据分析、可视化等技术发现数据的特征、特征之间的相互关系和影响等

    Modify :问题明确、数据调整、技术选择

    将模糊的问题明确化,调整所需数据集,进步明确所需要使用的技术手段

    Model :模型研发、知识发现

    选择多种合适的算法、模型等技术手段,同时调整、优化相关参数

    Assess :模型和知识的解释和评价

    评估模型效果,从多个备选结果中选择最合适的,并对模型进行针对业务的解释和应用

    3.实施步骤

  • 相关阅读:
    Linux 学习 step by step (2)
    公共建筑能耗监测平台的GPRS通讯服务器的开发方法分享
    幸福框架:可扩展的、动态的、万能的 编号生成器
    C++ Data Member内存布局
    .NET程序集强命名删除与再签名技术 源代码剖析
    hdu 2191(多重背包)
    五种情况下会刷新控件状态(刷新所有子FWinControls的显示)——从DFM读取数据时、新增加子控件时、重新创建当前控件的句柄时、设置父控件时、显示状态被改变时
    终于懂了:Delphi消息的Result域出现的原因——要代替回调函数的返回值!(MakeObjectInstance不会帮助处理(接收)消息回调函数的返回值)
    Firemonkey实现Mac OS程序中内嵌浏览器的功能(自己动手翻译,调用苹果提供的webkit框架)
    感悟:市场经济看得就是主观能动性,有则富贵可及,无则无限趋于零
  • 原文地址:https://www.cnblogs.com/nnadd/p/13068231.html
Copyright © 2020-2023  润新知