• c5.0药物治疗例子看分析相关性的个人理解


    例子的详细文档请查看modeler14.1的“数据准备实例”的药物治疗(勘察表 /C5.0)实例,这里给出一个下载的地址

    http://ishare.iask.sina.com.cn/f/12577308.html

    这个例子写得非常好,非常容易理解,但是他操作的步骤没有说明为什么这么做,我结合自己的感受汇总了一下思路,加入我个人的一些理解,不知道对否,但是可是算作我个人学习过程中的一种思考吧。

    以下是操作的步骤

    1.首先用表查看数据

    2.使用图形中的分布,查看情况,了解数据的结构(这里是查看目标字段 药品的分布情况)

    3.使用数据审核,查看所有数据的分布和直方图

    4.使用图形中的散点图查看那些因素对目标的影响,注意选择xy轴对象,目标字段为交叠字段,从散点图可以看出一部分的关系(这里查验Na和K元素对药品的关系)

    这里引申:Na-K比对药品有比较明显的趋势,那血压和胆固醇水平与药品之间是否有什么关系呢,我做了一下散点图(如下图)

    发现无论由于样例数据的胆固醇只存在高和正常,而血压数据无论高低的适用药品均为Y,是否说明Y药品适用于所有的血压和胆固醇类型人群呢?或者说药品和血压与胆固醇没有关系。其实我仔细查看发现其实不是这样的,因为散点图需要的数据为连续型数据的意义比较大,而血压和胆固醇是分类数据,样本太少,因此使用散点图去查看他们的关系是不合适的,那是否可以用其他方式呢,看下面。

    5.使用图形中的网络图,来查验不同类别之间的关系(这里是查看血压和药品之间的关系)

    引申:这里我们同样可以查看胆固醇和药品的关系。如下图

    注意由于样例的胆固醇水平只有高和正常两种情况,因此可以看到除了药品C只适用于高胆固醇类型外,其他的都适用于任何类型。

    如果我们选择血压、胆固醇和药品,那这个网络图会出现什么情况呢?如下图

    很乱啊。但是仔细看也能看出一些规律
    药品Y:所有胆固醇、所有血压
    药品A:所有胆固醇、高血压
    药品B:所有胆固醇、高血压
    药品X:所有胆固醇、非高血压

    正如例子中所说,其实这样我们还不能确定参数和目标字段的关系,还得使用C5.0

    但是我们采用这些建模算法之前可以使用散点图、网络图、分布图对数据的一些情况进行初步的分析,了解数据的一些大概规律,然后使用建模算法以后的结果来验证我们之前的思考,也可以算作一些验证和学习的过程吧。

  • 相关阅读:
    阻塞IO与非阻塞IO
    Java 中 IO 流分为几种?BIO,NIO,AIO 有什么区别?
    linux7启动时自动启动zookeeper和Tomcat
    linux7下配置Tomcat
    背景图片变色,或者背景渐变
    Linux7版本网络配置
    linux7中jdk安装
    linux7中zookeeper的安装-依赖于jdk
    Avoided redundant navigation to current location
    Auto Fix is enabled by default. Use the single string form
  • 原文地址:https://www.cnblogs.com/tippoint/p/2409588.html
Copyright © 2020-2023  润新知