• weka 属性选择


    weka有 两种属性选择模式

    1是

    属性子集评估器+搜索方法(后者可以说是循环,前者是循环的每个环节的操作)

    2是

    单一属性评估器+排序方法

    属性子集评估器有

    CfssubEval:综合考虑单一属性的预测值和属性间的重复度。

    classifiersubsetEval:用评估器评估属性集

    consistencySubsetEval:将训练数据集映射到属性机上来检测类型的一致性

    WrapperSubsetEval:使用分类器和交叉验证(包装方法)

    搜索方法有

    bestFirst:回溯的贪婪搜索

    ExhaustiveSearch:穷举搜索

    GeneticSearch:使用遗传算法搜索

    GreedyStepwise:不回溯的贪婪搜索

    randomSearch:随机搜索

    RankSearch:排列属性并使用属性子集评估器将有潜力的属性进行排序

    单一属性评估器

    ChiSquaredAttributeEval:以基于类的X2为依据的属性评估

    GainRationAttributeEval:以增益率为依据的属性评估

    InfoGainAttributeEval:以信息增益为依据的属性评估

    OneRAttributeEval:以OneR的方法论来评估属性

    PrincipleComponent:进行主成分的分析和转换

    ReliefAttributeEval:基于实例的属性评估器

    SymmeticalUncertAttributeEavl:以对称不确定性为依据的属性评估

    排序方法

    Ranker:按照属性的评估对他们进行排序

    下面学习下InfoGainAttributeEval:以信息增益为依据的属性评估------------------------------:

    别人的介绍:http://www.360doc.com/content/09/1010/11/79028_7055867.shtml

    源码:http://www.cse.iitb.ac.in/infolab/cep/day7/lab/tools/weka-3-5-3/doc/weka/attributeSelection/InfoGainAttributeEval.html

    属性选择右边显示界面有语句

    Search Method:

             Attribute ranking.------------排序方法

    Attribute Evaluator (supervised, Class (nominal): 13 cate):

    Filtered Attribute Evaluator

    Filter: weka.filters.supervised.instance.SpreadSubsample -M 0.0 -X 0.0 -S 1-----------有监督的过滤器,对样本过滤,对数据集进行随机的重新采样。

    Attribute evaluator: weka.attributeSelection.InfoGainAttributeEval-----------------单一属性评估器,以信息增益为依据的属性评估

    Filtered header:

    Ranked attributes:

    0.2907  11 hubse10

     0.283    5 degree

     0.2666   2 cluster

     0.2467  15 hubs20e10

    weka中对数据的预处理完全由过滤器来完成,所有的预处理方法都可以在weka.filters中找到。对于一个过滤器类,也就是继承自weka.filters.Filter的子类,都可以在遵从定义的情况下被weka系统中的其他类所使用。

    对于数据预处理,从所针对的目标来说可以分为2种:一是处理数据集的属性,二是处理数据集中的样本。两者都继承自Filter。其基本行为就是输入一个实例,输出一个修改后的实例。

    除了Filter这个主要的过滤器基类外,SupervisedFilter和UnsupervisedFilter接口很重要,它们实际上是两个空的接口,没有说明任何方法,只用来标记一个过滤器是有监督的还是无监督的。及有无给定类标。

    weka中的所有数据集都采用Instances类来进行保存。所有的数据都将加载到内存中再进行处理,Instances对象由多个Instance构成,,每个instance都代表了一个数据项,此外Instance还保存了属性结构。

    过滤器就是对Instances进行处理,更改其中的值,或者增加或者删除一些属性,甚至样本。过滤之后,再返回一个Instance。

    关于过滤器,可见“针对贝叶斯分类器的数据质量的定量分析研究.caj”

  • 相关阅读:
    Dockerfile构建基础镜像为alpine的jdk1.8镜像
    app测试01_app测试漫谈
    ES基本操作命令
    springboot 前后端日期json格式化
    降维处理PCA
    分析鸢尾花数据集
    Python--matplotlib绘图可视化知识点整理
    模拟股票预期收益案例源代码
    np.random.normal()正态分布
    pandas
  • 原文地址:https://www.cnblogs.com/xaf-dfg/p/3558383.html
Copyright © 2020-2023  润新知