• 机器学习之基本概念


    一、六个步骤

    1、场景解析,即进行业务场景抽象,匹配业务和算法;

    2、数据预处理,即进行数据清洗,对数据进行拆分,采样,去噪等,也可以进行数据归一化或标准化;

    3、特征工程,即提取数据特征;

    4、模型训练,通过算法进行训练,并生成模型;

    5、模型评估,评估模型成熟度;

    6、服务,根据每天数据生成新模型并进行预测;

    二、数据源结构类型

    1、结构化数据,比如存在数据表中的字段,存储的是具体值;

    2、半结构话数据,指按一定结构存储,但不是数据表格式的或存在表中,但不以数值存储;

    3、非结构化数据,类似图像,文本或语音之类的无法以矩阵表示的结构存储。

    三、算法分类

    1、监督学习,训练的数据包括目标值,学习的过程就是特征值和目标值对应的过程,依赖于样本的打标,典型算法:逻辑回归,K近邻,朴素贝叶斯,支持向量机,随机森林;

    2、无监督学习,训练样本不依赖打标数据,主要解决一些聚类场景的问题,典型算法:K-means,DBSCAN,协同过滤,LDA;

    3、半监督学习,对样本进行部分打标,典型算法:标签传播;

    4、强化学习,系统与外界不断交互,获取外界反馈,然后决定自身行为,典型算法:隐马尔科夫;

    四、结果评估

    TP(true positive):正样本被模型预测为正样本;

    TN(true negative):负样本被模型预测为负样本;

    FP(false positive):负样本被模型预测为正样本;

    FN(flase negative):正本被模型预测为负样本;

    精确率 = TP / (TP + FP)

    召回率 = TP / (TP + FN)

    F1值 =  (2 * 精确率 * 召回率 ) / (精确率 + 召回率)

    ROC(recever operating characteristic curve):

    常用的二分场景模型评估算法曲线,曲线横轴为FP,纵轴为TP,所以TP越大,FP越小说明模型越好,所以模型曲线越接近左上角越好,通过AUC值表示ROC曲线与横轴围起来的面积,AUC值越大效果越好。

  • 相关阅读:
    100个高质量的photoshop画笔
    VC调用DLL库方法的方法
    VC6中使用CHtmlView在对话框控制中显示HTML
    CtrlList 排序问题。
    VC ADO使用说明
    VC右键弹出菜单的实现
    VC6工程项目文件说明
    VC6中用DOM遍历网页中的元素
    C/C++头文件一览
    最常见的20种VC++编译错误信息
  • 原文地址:https://www.cnblogs.com/small-office/p/10081071.html
Copyright © 2020-2023  润新知