Frequent Pattern频繁模式:频繁地出现在数据集中的模式,Apriori算法是一种挖掘关联规则的频繁项集算法,算法过程描述如下:
前提条件:最小支持度为2
数据集,有四个事务数据 ,分别的商品包括:
事务1:1,3,4(商品id)
事务2:2,3,5
事务3:1,2,3,5
事务4:2,5
扫描数据集,统计每个商品id的数量,{1:2},{2:3},{3:3},{4:1},{5:3}。由于最小支持度为2,而商品id4的数量为1,不满足,过程如下图所示:
上图产生项集L1,做自然连接产生项集c2,然后扫描数据集,统计每个项集元素的数量,不满足的过滤掉,过程如下图所示:
上图产生项集L2,处理过程一样,最终产生项集L3,过程如下图所示:
项集L2和项集L3合并便是最终的频繁模式集,L2{13,23,25,35},L3{235}合并后就是{13,235}