• FP-growth算法


    对于发现频繁项集,Apriori是一个很好的算法,但Apriori在发现频繁项集的时候需要多次扫描数据库,这严重影响了速度。

    而FP-growth算法基于Apriori构建,不过在完成相同的发现频繁集的任务上,它采用了一些不同的技术。将数据集存储在一个特定的被称为FP树的结构之后去发现频繁项集。这种做法使得其只需对数据库进行两次扫描,从而大大提高了其发现频繁项集的速度。

    FP-growth发现频繁项集的基本过程如下:

    1. 构建FP树
    2. 从FP树中挖掘频繁项集

      图 1 FP树是以下面的数据集构造成的

      图2 数据集

      要构造FP树,首先需要定义FP树的节点,

      # fp树节点结构

      class treeNode:

      def __init__(self,nameValue,numOccur,parentNode):

      self.name=nameValue

      self.count=numOccur

      self.nodeLink=None

      self.parent=parentNode

      self.children={}

       

      def inc(self,numOccur):

      self.count+=numOccur

      # 打印路径

      def disp(self,ind=1):

      print(' '*ind,self.name,' ',self.count)

      for child in self.children.values():

      child.disp(ind+1)

      为构建FP树,会扫描两遍数据库。

      第一遍,对所有元素项出现的次数进行计数,去掉不满足最小支持度的元素项。

      第二遍,构建FP树,FP树会存储项集的出现频率,而每个项集会以路径的方式存储在树中,存在相似元素的集合会共享树的一部分。只有当集合之间完全不相同时,树才会分叉。

      为了构造FP树和挖掘频繁项集,还需要构造一个头指针表来辅助。

      图3 带有头指针表的FP树

      FP树的构造和构造辅助的头指针表实现如下

      # FP树的构造

      def createTree(dataSet,minSup=1):

      headerTable={} # 头指针表

      for trans in dataSet:

      for item in trans:

      headerTable[item]=headerTable.get(item,0)+dataSet[trans]

      # 移除不满足最小支持度的元素项

      for k in list(headerTable.keys()):

      if headerTable[k]<minSup:

      del(headerTable[k])

      # 根据头指针表 建频繁元素项集

      freqItemSet =headerTable.keys()

      if len(freqItemSet)==0: return None,None

       

      for k in headerTable:

      headerTable[k]=[headerTable[k],None]

      # 建立根节点

      retTree = treeNode('Null Set',1,None)

      # 第二次扫描数据集,建立 FP 树, 并对事务中的频繁元素排序

      for tranSet,count in dataSet.items():

      localD={}

      for item in tranSet:

      if item in freqItemSet:

      localD[item]=headerTable[item][0]

      # 根据全局频率对事务中频繁元素项排序

      if len(localD)>0:

      orderedItems=[v[0] for v in sorted(localD.items(),

      key=lambda p: p[1],reverse=True)]

      # 使用排序后的频繁项集对树进行填充

      updateTree(orderedItems,retTree,headerTable,count)

      return retTree,headerTable

       

      def updateTree(items,inTree,headerTable,count):

      if items[0] in inTree.children:

      inTree.children[items[0]].inc(count)

      else:

      # 放入新的子节点

      inTree.children[items[0]]=treeNode(items[0],count,inTree)

      if headerTable[items[0]][1]==None:

      headerTable[items[0]][1]=inTree.children[items[0]]

      else:

      # 更新头指针表的链接

      updateHeader(headerTable[items[0]][1],inTree.children[items[0]])

      if len(items)>1:

      updateTree(items[1::],inTree.children[items[0]],headerTable,count)

       

      def updateHeader(nodeToTest,targetNode):

      while(nodeToTest.nodeLink!=None):

      nodeToTest=nodeToTest.nodeLink

      nodeToTest.nodeLink=targetNode

      用图2 的数据集测试构造FP树

      图4 测试构造FP树

      有了FP树之后,就可以抽取频繁项集了。其思路大致和Apiori相似,首先从单个元素项开始,然后在此基础上逐步构建更大的集合。基本步骤如下:

    3. 从FP树中获得条件基模式
    4. 利用条件基模式,构建一个条件FP树(条件基模式,即以所查找的元素项为结尾,然后上溯FP树,找出以该元素为结尾的所有前缀路径的集合)
    5. 迭代重复步骤1和2,直到树包含一个项集为止

      # 挖掘频繁项集

      def mineTree(inTree,headerTable,minSup,preFix,freqItems):

      bigL = [v[0] for v in sorted(headerTable.items(),key=lambda p :p[0])]

      for basePat in bigL:

      newFreqSet=preFix.copy()

      newFreqSet.add(basePat)

       

      # freqItems.append(newFreqSet)

      # freqItemSet 修改为字典结构,便于规则的发现生成

      tmp=newFreqSet.copy()

      tmp=frozenset(tmp)

      freqItems[tmp]=headerTable[basePat][0]

       

      conPatBases=findPrefixPath(basePat,headerTable[basePat][1])

      myCondTree,myHead=createTree(conPatBases,minSup)

      if myHead!=None:

      mineTree(myCondTree,myHead,minSup,newFreqSet,freqItems)

       

      # 上溯整棵树

      def ascendTree(leafNode,prefixPath):

      if leafNode.parent!=None:

      prefixPath.append(leafNode.name)

      ascendTree(leafNode.parent,prefixPath)

      # 找出前缀路径

      def findPrefixPath(basePat,treeNode):

      condPats={}

      while treeNode!=None:

      prefixPath=[]

      ascendTree(treeNode,prefixPath)

      if len(prefixPath)>1:

      condPats[frozenset(prefixPath[1:])]=treeNode.count

      treeNode=treeNode.nodeLink

      return condPats

      同样,利用上面的数据集,通过FP树挖掘出所有频繁项集

      图5 挖掘出数据集的频繁项集

      最后是利用所发现的频繁项集,发现生成出满足一定置信度的规则

      # 从频繁项集中找出符合最小置信度的规则

      def disp_rules(freqItems,minconf):

      n_rules=0

      for item1,value1 in freqItems.items():

      for item2,value2 in freqItems.items():

      conf=value2/float(value1)

      if (item1 != item2) and (item1.issubset(item2)) and conf>minconf:

      print(item1,' --> ',(item2-item1),' conf:',conf)

      n_rules+=1

      print('the number of total rules :',n_rules)

      disp_rules(freqItems,minconf=0.7)

      图6 根据频繁项集发现生成的规则

  • 相关阅读:
    SessionAttributes注解
    数据格式化
    数据类型转换器
    线程的常用方法总结
    线程生命周期
    分析配置DispatcherServlet类时load-on-startup标签作用
    springMVC的执行请求过程
    MyBatis之动态SQL
    MyBatis实现
    Spring框架中的JDK与CGLib动态代理
  • 原文地址:https://www.cnblogs.com/lincz/p/12822261.html
Copyright © 2020-2023  润新知