1、前言
在本文中,我们提出了基于树的增量关联规则挖掘(TIARM)算法。所提出的算法使用新颖的数据结构INC-Tree,它是FP-Tree的扩展,以提高存储压缩的效率,并可以在不产生候选集的情况下挖掘频繁模式。我们的算法允许在数据库中单次通过挖掘,以及可以随时高效地插入或删除事务(transactions),算法具有比其他算法更好的性能。
2、INC-Tree
在本算法中,提出来一种新的数据结构,INC-Tree(INCremental Tree)是FP-tree的扩展树。INC-Tree以简单的方式构建,将数据库中的每个事务一个接一个地插入到它中。它根据用户给出的支持度阈值修剪构造的树。最初,INC-Tree是空的,树结构具有'null'根节点。在插入任何事务之前,事务通过根据项目在数据库中的出现顺序进行排序来进行预处理,它包含数据库中每个项目的频数。INC-Tree包含表示该节点直到该节点的路径项目和总计数的节点。 在根级别添加新事务。以下是CATS树中使用的示例数据库。
最初,INC-Tree为空。 事物1(transactions1)(F,A,C,D,G,I,M,P)被原样添加。对于事物2, B,L和O是新项目,因此它们按原始交易的顺序在排序列表的末尾添加。事务2在添加到项目C之后开启另一个分支添加到INCTree(由M开始B、L、O)。 每个项目的频率计数随着树中事务的每个节点的计数字段的增量一起更新。对于剩余的事物将重复此过程。在构建表示相同项目(Items)的INCTree节点之后,排序列表(频繁项目头表)中的相同项目指向树中的第一个节点(连线)。
3、overall method
1.获取事务数据集。
2.构建排序列表并在事务中找到的新项目。
3.根据排序列表的顺序对原始事物进行排序。
4.将排序的事务添加到INC-Tree。
5.增加每个节点的计数值。
6.获取下一笔事物。
7.重复步骤1到6,直到在数据库中找不到事务。
8.将排序列表中的每个项目指向树中首先出现的相应节点,并链接相同项目的节点。