概念
- 关联分析:从大规模数据集中寻找物品间的隐含关系。物品间关系又分为两种:频繁项集或关联规则,频繁项集是经常出现一块的物品集合;关联规则则暗示物品间存在很强的联系
- 关联评判标准:支持度和可信度。支持度是指数据集中包含该项集的记录所占比例,是针对项集而言;可信度(置信度)是针对一条关联规则定义的,规则A->B的可信度定义为支持度(A|B)/ 支持度(A)
- apriori原理:若某项集是频繁的,那他的子集也是频繁的
- apriori算法目的:找到强关联规则,即满足最小支持度和最小置信度的关联规则
思考
如何发现频繁项集?(满足最小支持度)
- 首先计算出单个元素的支持度,然后选出单个元素置信度大于我们要求的数值(最小支持度),比如0.5或是0.7等。
- 然后增加单个元素组合的个数,只要组合项的支持度大于我们要求的数值就把它加到我们的频繁项集中,依次递归
- 终止条件:如果自连接得到的已经不再是频繁集,那么取最后一次得到的频繁集作为结果
如何找出关联规则?(满足最小可信度)
- 对于每个频繁项集L,产生L的所有非空子集
- 对于L的每个非空子集S,如果P(L-S)/P(S)≧min_conf,则输出规则“SàL-S”
注:L-S表示在项集L中除去S子集的项集