这里来挖掘超市购物车数据。
名词:
1、挖掘数据集:购物篮数据
2、挖掘目标:关联规则
3、关联规则:牛奶=>鸡蛋[支持度=2%,置信度=60%]
4、指出度:分析中的全部事务的2%同时购买了牛奶和鸡蛋
5、置信度:购买牛奶的篮子同时也购买了鸡蛋
6、最小支持阈值和最小置信阈值:由挖掘者或领域专家设定
7、项集:由商品组成的集合
8、k-项集:k个项组成的集合
9、频繁项集:满足最小支持度的项集,频繁k-项集一般记为Lk
10、强关联规则:满足最小支持度阈值和最小置信度阈值的规则
在R里面有一个arules包用于分析购物篮问题
library(arules) #调用这个包
data("Groceries") #调用这个数据集
r<-apriori(Groceries,parameter = list(support=0.01,confidence=0.5)) #这是调用这个包的一个函数,及其参数
summary(r) #查看结果
inspect(r) #也是查看结果
然后就。。。。。。。结束啦!!! 就这么,简单
其中这个结果中会有一个值:lift 这是一个类似相关系数的指标 当lift=1的时候表示L和R独立 但当这个lift值越大的时候,越表明L和R存在在一个购物篮不是一个偶然现象