• 机器学习处理流程


    一、数据预处理

      1)缺失数据处理。对于缺失数据,可以取平均值。如果大量样本都缺失该特征,可以直接去掉该特征。

      2)特征转换。将字符串特征转换为对应的数字表示。

      3)归一化处理

      4)数据转换。将偏态数据转换成尽量符合正态分布特征。

    二、特征工程

      分析特征对最终模型的影响程度,如果是回归问题,就看特征对Y值的影响;分类问题,就看特征对分类结果的影响大小。可以采用图表的方式直观来展现、分析,更具有说服力。最终目的是剔除一些对模型影响不大的冗余特征,使得模型更加精炼。

    三、模型选择与构建

      根据问题的求解以及数据的形态、分布情况,分析选择什么样的模型来解决问题更合适,是分类、聚类问题,还是回归问题等等。不同的问题选择不同的数学模型,并构建相应模型进行下一步处理。

    四、模型验证与参数选择

       这一步可以利用交叉验证方法选择模型的参数,例如选择正则化参数λ、多项式回归中的最高次数d、SVM中的参数C与σ等等。

      另外一方面就是对模型的选择,同样利用交叉验证方法,可以对比选择模型,是采用Ridge回归还是Lasso回归等等。

      

    五、模型最终打分

      当模型训练完成并交叉验证确定后,利用测试集对模型做最后的评测,计算精确度,或者求解F1值,给模型做一个最后的打分。

  • 相关阅读:
    结对作业
    小学算术题四则运算(升级)
    自动生成小学四则运算题目(Python实现)
    《基于CMMI的软件工程及实训指导》第一章 软件工程基础
    使用 python 进行微信好友分析
    中国大学排名
    python小程序测试
    爬虫测试
    体育竞技分析

  • 原文地址:https://www.cnblogs.com/gczr/p/6564095.html
Copyright © 2020-2023  润新知