• 数据挖掘案例分析-泰坦尼克号数据


    一、数据挖掘流程介绍

      1.数据读取
          -读取数据
          -统计指标
          -数据规模
      2.数据探索(特征理解)
          -单特征的分析,诸个变量分析对结果y的影响(x,y的相关性)
          -多变量分析(x,y之间的相关性)
          -统计绘图
      3.数据清洗和预处理
          -缺失值填充
          -标准化、归一化
          -特征工程(筛选有价值的特征)
          -分析特征之间的相关性
      4.建模
          -特征数据的准备和标签
          -数据集的切分
          -多种模型对比:交叉验证、调参(学习曲线,网格搜索)
          -集成算法(提升算法)XGBoost、GBDT、light-GBM、神经网络(多种集成)

    二、数据文件说明

      本案例所用泰坦尼克号数据存储在文件 train.csv 中,来源于kaggle竞赛

    三、Python代码实现

    1.数据读取

     

     

     2.数据探索

     

     

     

     

     

     3.数据清洗和预处理

     3.1  提取性别身份,并将少数类归为其他

     

     

     3.2  缺失值填充

    3.2.1  填补Age缺失值

     3.2.2  填充港口数据

      

      

      

      

     3.3数据处理

    3.3.1  年龄分段

     

     3.3.2  数值化

     

      

     3.3.3  独热编码

     

     3.3.4  变量选择

     4.建模

    • 导包

     

    •  划分数据集

     4.1  logistic

     4.2  knn近邻算法

     

     4.3  网格搜索

     

     4.4  决策树

     4.5  roc曲线

    ROC曲线的含义:受试者工作特征曲线

    #评价统计量计算

    • 1.ROC曲线下的面积值在0.5和1之间。
    • 2.在AUC>0.5的情况下,AUC越接近于1,说明效果越好。
      • AUC在 0.5~0.7时有较低准确性,
      • AUC在0.7~0.9时有一定准确性,
      • AUC在0.9以上时有较高准确性。
    • 3.AUC小于等于0.5时,说明该方法完全不起作用。

     

     

     从上图可以看出:AUC值等于0.83,说明效果较好

    4.6  混淆矩阵

    4.7  集成算法-装袋法 

    通过比较发现装代法的得分最高,约为0.8659,即使用该方法效果最好。

  • 相关阅读:
    朱刘算法---有向图的最小生成树
    527D Clique Problem 判断一维线段没有两辆相交的最大线段数量
    Tex中的引号
    DAY 96 flask05
    DAY 95 flask04
    DAY 94 flask03
    DAY 93 flask02
    DAY 92 flask01
    DAY 91 爬虫05
    DAY 90 爬虫04
  • 原文地址:https://www.cnblogs.com/lvzw/p/11577796.html
Copyright © 2020-2023  润新知