关联分析:
构造一个关联系数矩阵,两个属性的值介于-1到1之间。
大于0,两者为正关联,<0,两者为负关联。 0 无关联,接近1或-1是比较强的关联。
关联规则:
寻找数据集内的属性之间存在的频繁关联,前提--->结论
举例子:
确定哪些产品最常被一起购买。
有这么一波人买早点,3个人同时购买牛奶和糕点,买糕点的有4个,买牛奶的是7个。
则置信度:糕点->牛奶 3/4
牛奶->糕点 3/7
即置信度是出现某些物品时,另外一个物品出现的概率。
支持度:3/10 (糕点,牛奶)
A和B同时出现的概率。
我们寻找的是置信度高和支持度高的关联规则。
常用算法一:
Apriori算法,1.将项集连接构成候选集,2.去掉非频繁集合
FPgrowth算法,1将数据集中事务映射到一棵树Fp-tree上面,2从树上挖掘频繁项集