c5.0药物治疗例子看分析相关性的个人理解

c5.0药物治疗例子看分析相关性的个人理解

例子的详细文档请查看modeler14.1的“数据准备实例”的药物治疗（勘察表 /C5.0）实例，这里给出一个下载的地址

http://ishare.iask.sina.com.cn/f/12577308.html

这个例子写得非常好，非常容易理解，但是他操作的步骤没有说明为什么这么做，我结合自己的感受汇总了一下思路，加入我个人的一些理解，不知道对否，但是可是算作我个人学习过程中的一种思考吧。

以下是操作的步骤

1.首先用表查看数据

2.使用图形中的分布，查看情况，了解数据的结构（这里是查看目标字段药品的分布情况）

3.使用数据审核，查看所有数据的分布和直方图

4.使用图形中的散点图查看那些因素对目标的影响，注意选择xy轴对象，目标字段为交叠字段，从散点图可以看出一部分的关系（这里查验Na和K元素对药品的关系）

这里引申：Na-K比对药品有比较明显的趋势，那血压和胆固醇水平与药品之间是否有什么关系呢，我做了一下散点图（如下图）

发现无论由于样例数据的胆固醇只存在高和正常，而血压数据无论高低的适用药品均为Y,是否说明Y药品适用于所有的血压和胆固醇类型人群呢？或者说药品和血压与胆固醇没有关系。其实我仔细查看发现其实不是这样的，因为散点图需要的数据为连续型数据的意义比较大，而血压和胆固醇是分类数据，样本太少，因此使用散点图去查看他们的关系是不合适的，那是否可以用其他方式呢，看下面。

5.使用图形中的网络图，来查验不同类别之间的关系（这里是查看血压和药品之间的关系）

引申：这里我们同样可以查看胆固醇和药品的关系。如下图

注意由于样例的胆固醇水平只有高和正常两种情况，因此可以看到除了药品C只适用于高胆固醇类型外，其他的都适用于任何类型。

如果我们选择血压、胆固醇和药品，那这个网络图会出现什么情况呢？如下图

很乱啊。但是仔细看也能看出一些规律
药品Y:所有胆固醇、所有血压
药品A:所有胆固醇、高血压
药品B:所有胆固醇、高血压
药品X:所有胆固醇、非高血压

正如例子中所说，其实这样我们还不能确定参数和目标字段的关系，还得使用C5.0

但是我们采用这些建模算法之前可以使用散点图、网络图、分布图对数据的一些情况进行初步的分析，了解数据的一些大概规律，然后使用建模算法以后的结果来验证我们之前的思考，也可以算作一些验证和学习的过程吧。
相关阅读:
阻塞IO与非阻塞IO
Java 中 IO 流分为几种?BIO,NIO,AIO 有什么区别?
linux7启动时自动启动zookeeper和Tomcat
linux7下配置Tomcat
背景图片变色，或者背景渐变
 Linux7版本网络配置
 linux7中jdk安装
 linux7中zookeeper的安装-依赖于jdk
Avoided redundant navigation to current location
Auto Fix is enabled by default. Use the single string form
原文地址：https://www.cnblogs.com/tippoint/p/2409588.html