• R语言和数据分析十大:购物篮分析


    提到数据挖掘,我们的第一个反应是之前的啤酒和尿布的故事听说过,这个故事是一个典型的数据挖掘关联规则。篮分析的传统线性回归之间的主要差别的差别,对于离散数据的相关性分析;

    常见的关联规则:

    关联规则:牛奶=>卵子【支撑=2%,置信度=60%】

    支持度:分析中的所有事务的2%同一时候购买了牛奶和鸡蛋,需设定域值,来限定规则的产生。

    置信度:购买了牛奶的筒子有60%也购买了鸡蛋,需设定域值,来限定规则的产生。

    最小支持度阈值和最小置信度阈值:由挖掘者或领域专家设定。

    与关联分析相关的专业术语包含:

    项集:项(商品)的集合

    k-项集:k个项组成的项集

    频繁项集:满足最小支持度的项集。频繁k-项集一般记为Lk

    强关联规则:满足最小支持度阈值和最小置信度阈值的规则

    接下来以两步法为例。揭秘下关联分析的做法:

    例如以下有9个购物篮(T100-T900):两步法先找出全部的频繁项集;第二步再由频繁项集产生强关联规则。


    算法步骤:

    Step1:扫描D,对每一个候选项计数,生成候选1-项集C1。并算出每项的关联度计数(即该项出现的频数);
    Step2:定义最小支持度阀值为2(即剔除频数低于2的项),记剩余的项集为L1。
    Step3:由L1 两两配对生成新的2-项集C2。
    Step4:扫描D。对C2里每一个项计数,定义最小支持度阀值为2(即剔除频数低于2的项),记剩余的项集为2-项集L2;
    Step5:由L2 两两配对生成新的3-项集C3。
    ……如此循环,直至出现最大的n-项集结束。
    

    以上述样例为例,图解步骤例如以下:


    如图为例,我们计算频繁项集{I1,I2,I5}。能够发现I1^I2=>I5,因为{I1,I2,I5}出现了2次。{I1,I2}出现了4次,故置信度为2/4=50%

    类似能够算出:


    利用R进行购物篮分析,R中关联分析函数为arules,我们採用内置的Groceries的数据集(例如以下)。

    Inspect(Groceries)

    详细的R语言实现例如以下:

    library(arules)
    data(Groceries)
    frequentsets=eclat(Groceries,parameter=list(support=0.05,maxlen=10))
    inspect(sort(frequentsets,by="support")[1:10]) #依据支持度对求得的频繁项集排序
    

    结果例如以下:可见全部的关联规则的排名:

    接下来以阀值挑选我们的须要的关联项:

    rules=apriori(Groceries,parameter=list(support=0.01,confidence=0.5))
    inspect(rules)
    

    由此可见购物篮就完毕,当中lift是相关度指标,lift=1表示L和R独立,lift越大表明L和R在同一购物篮绝非偶尔现象,更加支持我们的购物篮决策。



    版权声明:本文博主原创文章,博客,未经同意不得转载。

  • 相关阅读:
    etcd数据单机部署
    PostgreSQL INSERT ON CONFLICT不存在则插入,存在则更新
    ERROR 1709 (HY000): Index column size too large. The maximum column size is 767 bytes.
    Hbase 0.92.1集群数据迁移到新集群
    PostgreSQL创建只读账户
    Kafka技术内幕 读书笔记之(六) 存储层——服务端处理读写请求、分区与副本
    Kafka技术内幕 读书笔记之(六) 存储层——日志的读写
    Kafka技术内幕 读书笔记之(五) 协调者——消费组状态机
    Kafka技术内幕 读书笔记之(五) 协调者——延迟的加入组操作
    Kafka技术内幕 读书笔记之(五) 协调者——协调者处理请求
  • 原文地址:https://www.cnblogs.com/yxwkf/p/4827059.html
Copyright © 2020-2023  润新知