序列模型在关联模型的基础上进一步考虑了事务间的顺序,譬如客户购买商品时会先买床然后再买床上用品登登。所以序列模型的研究是有一定意义的。
书上指出两个适应本规则的应用,web数据挖掘中,从用户浏览网页的顺序中挖掘网站的浏览模型;文本挖掘中,根据刺在句中的顺序挖掘语言模式。
sequence:是经过排序的项集。序列s可用用<a1a2...ar>表示,其中ai就是一个项集,可以表示为{x1,x2,...,xk}。那么r即为序列s的基数,k为s的长度。
长度为k的序列称为k-序列。
序列模式的目标:给出一个序列数据库(sequence database),找出所有满足用户指定的最小支持度的序列。每个这样的序列称为一个频繁序列称为频繁序列
(frequent sequence)或者一个序列模式(sequence pattern).
挖掘算法:
GSP算法。和Apriori算法基本一致,但在产生candidate时合并和剪枝上有很大差别。
合并的时候,比较两个序列s1和s2,如果s1去掉第一项目和s2去掉最后一项目的其他项目相同,则将s2的尾项加至s1末尾。
注:此处项目不是项集!书上还点出了合并有几种情况及特殊情况的处理。
MS-GPS算法。使用了最小支持度(MIS)的概念,具体实现只是将将看懂,复述起来比较困难,需要以后多研究。
PrefixSpan 算法,是利用频繁项目作为前缀找出所有匹配的序列模式,和GPS算法的区别是GPS算法是通过广度优先遍历,而本算法是通过深度优先遍历,不生成候选序列,仅针对前缀情况的局部项目计数出现频率。劣处暂时没有概念,需要真正研究本算法时可以考虑下在什么情况下用本算法较好,什么情况应该规避该算法。
同样的也有多最小支持度挖掘的MS-PS算法,不深入研究。。。
经典的序列模式挖掘没有定义规则生成,但事实上可以几类数据挖掘也是可行的。
书中介绍的规则包括:
1、序列规则(sequential rules)
2、标签序列规则 (Label sequential rules)
3、分类序列规则 (class sequential rules)