• weka使用笔记1FPGrowth注意事项和参数说明


    weka是一个很好的数据挖掘实验的工具,可以进行标准的数据挖掘的各种实验,首先来说一下关联规则的挖掘。

    在linux环境下,在使用weka之前,要配置好环境变量,将weka目录下的weka.jar的位置加到classpath中,然后就可以调用weka的命令行进行数据挖掘了。weka的apriori算法优化非常不好,相当占用内存,大约50w的属性开14G的内存都不够用,所以如果在本机进行数据量较大的实验的话,要选FPGrowth算法。FPGrowth算法只需要扫面两遍数据库,虽然他是递归的选择rules的,也比较占用内存,但是如果有4G以上的内存的话,基本上就够用了。至于FPGrowth的算法实现,就不做赘述了,网上一大堆,理解起来也不是很难。

    weka默认的数据形式是.arff格式的,arff格式很简单,支持稀疏格式,一般的关联规则都要用稀疏格式的数据,提醒一点的是,构建稀疏格式的arff文件的时候,数据行上一定不要忘记加上{}。

    FPGrowth的参数:-t,系统默认参数,是指定要进行挖掘的数据文件的;-N,是给出要输出多少条规则;-T是指定选择哪个量进行排序,weka提供四种排序方法,0=confidence ,1=lift , 2=leverage , 3=Conviction。4种参数代表的意义一查就有,0,1,3都是越大越好,2一般出来都是0。-C是指你选定的那个排序参数的那个最小值,-M是是支持度的最小值,-U是支持度的最大值。

    进行挖掘的时候如果想把输出结果保存的话,可以利用linux的管道,命令后面加上| tee yourFilename就好了。

  • 相关阅读:
    一、dynamic
    一、提问方式
    金额大写
    1、过滤敏感字符
    一、简单的移动端tab头部二级下拉导航栏,向下弹出,向上隐藏
    一、简单的图片上传并预览功能input[file]
    【2019-11-16】做人和做企业是一个同心圆
    【2019-11-15】销售门槛低,但前途无量
    【2019-11-14】乐观扩宽了自己想象的范围
    【2019-11-13】看到别人的是孤独,其实是独处
  • 原文地址:https://www.cnblogs.com/fbiswt/p/2732422.html
Copyright © 2020-2023  润新知