• Apriori关联分析算法概述


    概念

    • 关联分析:从大规模数据集中寻找物品间的隐含关系。物品间关系又分为两种:频繁项集或关联规则,频繁项集是经常出现一块的物品集合;关联规则则暗示物品间存在很强的联系
    • 关联评判标准:支持度和可信度。支持度是指数据集中包含该项集的记录所占比例,是针对项集而言;可信度(置信度)是针对一条关联规则定义的,规则A->B的可信度定义为支持度(A|B)/ 支持度(A)
    • apriori原理:若某项集是频繁的,那他的子集也是频繁的
    • apriori算法目的:找到强关联规则,即满足最小支持度和最小置信度的关联规则

    思考

    如何发现频繁项集?(满足最小支持度)

    • 首先计算出单个元素的支持度,然后选出单个元素置信度大于我们要求的数值(最小支持度),比如0.5或是0.7等。
    • 然后增加单个元素组合的个数,只要组合项的支持度大于我们要求的数值就把它加到我们的频繁项集中,依次递归
    • 终止条件:如果自连接得到的已经不再是频繁集,那么取最后一次得到的频繁集作为结果

    如何找出关联规则?(满足最小可信度)

    • 对于每个频繁项集L,产生L的所有非空子集
    • 对于L的每个非空子集S,如果P(L-S)/P(S)≧min_conf,则输出规则“SàL-S”

      注:L-S表示在项集L中除去S子集的项集

  • 相关阅读:
    网络English word
    Top instruction significance and use sar command
    远程传输+用yum安装文件+make编译安装软件
    windows主机向虚拟机Linux传输过程的错误重重艰苦历程
    pair结构体数组
    set容器
    scanf多组样例输入
    贪心硬币
    补一下蛇形矩阵
    如何在eclipse运行asn
  • 原文地址:https://www.cnblogs.com/xiaoyun94/p/7388411.html
Copyright © 2020-2023  润新知