• Mining Sequential Patterns by PrefixSpan算法


     prefixspan算法韩家炜老师在2001年提出的序列模式算法,该算法和他在2000提出的FP_growth算法有很大的相似之处,都避免产生候选序列。

        prefixspan算法的核心是产生前缀和对应的后缀,每次递归都将合适的后缀变为前缀。难点是类似:<a x>,<(a x)>和<(_ x)>,后两种可以做一类处理。现以下图所示的超市购物数据详细讲解,阈值是2=4*50%。

        prefixspan算法

        概念介绍:每行数据叫序列,可以理解某人第一天买了商品a,b,c,第二天又买了商品a,b,c,第三天买了商品a,c。某天买的总商品叫项目如:a,b,c。每件商品叫元素如a。

        第一步:按每个元素排序,每个元素在一个序列中即使出现多次,也只算一次,然后删除不满足阈值的元素,这里只删除了元素g,结果如下图:

       prefixspan算法
       第二步:找前缀分别为a,b,c,d,e,f的后缀,那么这些后缀是相互独立,互不影响的。这是算法的关键。前缀a和b的后缀如下图:

      prefixspan算法   prefixspan算法

    这里的下划线"_"表示它就是前缀,并且该项目还有其他元素。

      第三步:在各个后缀中分别递归的讲后缀变成前缀。以前缀a为例。前缀为<a b>的后缀是:

      prefixspan算法
      后面的4表示前缀为<a b>出现了4次,分别是下面两次,第三次是空的,表示前缀<a b>后面没有项目了。前缀为<(a b)>的后缀是:

      prefixspan算法
      注意前缀<a b>和<(a b)>是有区别的。前者表示元素a,b在不同的项目里面,而后者表示元素a,b必须在同一个项目里面。这代表了两种不同的情况。这一步可以一直递归下去,知道全部后缀变成前缀为止。下面就前缀<a b>继续分析,它会生成前缀为<a b c>的后缀:

    prefixspan算法
    此时,再没有合适的后缀可以转换成前缀了,结束递归。前缀为<a (b c)>的后缀:

    prefixspan算法
    这个后缀还可以继续转换成前缀,有:

    prefixspan算法
    此时,再没有合适的后缀可以转换成前缀了,结束递归。于是整个前缀为<a b>的所有情况的找出来了。类似的可以找出前缀为b,c,d,e,f的部分。

    论文下载地址

  • 相关阅读:
    linux 环境变量恢复默认值
    怎么查看Eclipse的版本信息
    掌握HDFS的Java API接口访问
    【代理】代理概念
    【DbUtils】轻量级的ORM学习
    【mysql】相关记录
    JWT(JSON Web Tokens)
    将jar包安装到本地仓库
    Spring集成rabbitmq
    spring-rabbit包的引入需要注意的事项
  • 原文地址:https://www.cnblogs.com/ywl925/p/3088896.html
Copyright © 2020-2023  润新知