weka使用笔记1FPGrowth注意事项和参数说明

weka是一个很好的数据挖掘实验的工具，可以进行标准的数据挖掘的各种实验，首先来说一下关联规则的挖掘。

在linux环境下，在使用weka之前，要配置好环境变量，将weka目录下的weka.jar的位置加到classpath中，然后就可以调用weka的命令行进行数据挖掘了。weka的apriori算法优化非常不好，相当占用内存，大约50w的属性开14G的内存都不够用，所以如果在本机进行数据量较大的实验的话，要选FPGrowth算法。FPGrowth算法只需要扫面两遍数据库，虽然他是递归的选择rules的，也比较占用内存，但是如果有4G以上的内存的话，基本上就够用了。至于FPGrowth的算法实现，就不做赘述了，网上一大堆，理解起来也不是很难。

weka默认的数据形式是.arff格式的，arff格式很简单，支持稀疏格式，一般的关联规则都要用稀疏格式的数据，提醒一点的是，构建稀疏格式的arff文件的时候，数据行上一定不要忘记加上｛｝。

FPGrowth的参数：-t，系统默认参数，是指定要进行挖掘的数据文件的；-N，是给出要输出多少条规则；-T是指定选择哪个量进行排序，weka提供四种排序方法，0=confidence ，1=lift ， 2=leverage ， 3=Conviction。4种参数代表的意义一查就有，0，1，3都是越大越好，2一般出来都是0。-C是指你选定的那个排序参数的那个最小值，-M是是支持度的最小值，-U是支持度的最大值。

进行挖掘的时候如果想把输出结果保存的话，可以利用linux的管道，命令后面加上| tee yourFilename就好了。

相关阅读:
一、dynamic
一、提问方式
金额大写
1、过滤敏感字符
一、简单的移动端tab头部二级下拉导航栏，向下弹出，向上隐藏
一、简单的图片上传并预览功能input[file]
【2019-11-16】做人和做企业是一个同心圆
【2019-11-15】销售门槛低，但前途无量
【2019-11-14】乐观扩宽了自己想象的范围
【2019-11-13】看到别人的是孤独，其实是独处

原文地址：https://www.cnblogs.com/fbiswt/p/2732422.html