支持度&置信度
\(Support(X\rightarrow Y)=\frac{(X\bigcup Y)}{n}\)
\(Confidence(X\rightarrow Y)=\frac{(X\bigcup Y)}{X}\)
因果关系≠关联性
置信度和支持度都是统计出来的条件概率,不能说明全部的问题
Apriori算法
-
计算出所有的频繁集
-
基于频繁集生成满足最小置信度的规则,产生的规则称为强规则
算法流程:
重要定理
- 如果一个集合是频繁项集,则它的所有子集都是频繁项集。假设一个集合{A,B}是频繁项集,则它的子集{A}, {B} 都是频繁项集。
- 如果一个集合不是频繁项集,则它的所有超集都不是频繁项集。假设集合{A}不是频繁项集,则它的任何超集如{A,B},{A,B,C}必定也不是频繁项集。
根据定理1和定理2易知:若\(X\rightarrow Y\)是强规则,则\(X,Y,XY\)都必须是频繁项集。