[数据挖掘课程笔记]关联规则挖掘

两种度量：

支持度（support） support(A→B) = count(AUB)/N (N是数据库中记录的条数)

自信度（confidence）confidence(A→B) = count(AUB)/count(A)

关联规则挖掘的基本两个步骤：

1.找出所有的频繁项集

2.由频繁项集产生强关联规则

由于整个数据库十分庞大，所以对第一步来说，若使用穷举法，搜索空间将是2^d,d是项的个数。所以优化算法主要需要优化第一步。而频繁项集里的项的数目远小于数据库数据的数目，所以，在第二步中，我们可以采用穷举法。

Apriori Algorithm

频繁：support(A,B)>=min_sp

几个原理：

1.如果X在数据集D中是闭的，那么不存在X的超集Y的支持度与X的支持度相同。

2.X是D中的极大频繁项集（闭的且频繁），那么不存在X的超集Y是频繁的。

3.如果X不是一个频繁项集，那么它的超项集Y也一定不是频繁的。

4.频繁项集的子集必是频繁的。

算法思想：通过频繁n项集生成候选n+1项集，然后再扫描数据库，选出频繁n+1项集，直到不能产生新的频繁项集。

在L2到C3的过程中，可以组成{A,B,C},{B,C,E},{A,C,E},由于{A,B,C}和{A,C,E}都包含不频繁子项集，所以可以直接删除，在扫描数据库过程中，只需要扫描{B,C,E}

DIC: Reduce Number of Scans

基本思想：把数据库分成若干块，每一块都有一个开始点（start point）,在每一个开始点处都可以加入新的候选项集。

如上图所示，初始时，加入所有的一项集，然后扫描B1，得到一项集在B1中的支持度，选出频繁一项集组成的候选二项集，在B2的start point位置加入，然后扫描B2，给候选项集里的项集计数，然后再生成新的频繁项集，在B1的start point上加入。重复这个过程，直到没有新的频繁项集生成。

相关阅读:
requests+lxml+xpath爬取豆瓣电影
hisi出的H264码流结构
单片机复位电路原理介绍
二极管与、或门，三极管非门电路原理
Windows Route 路由表命令整理
理解Windows中的路由表和默认网关
Windows路由表详解
linux 路由表设置之 route 指令详解
linux中service *** start与直接运行/usr/bin/***的区别
Linux运行与控制后台进程的方法：nohup, setsid, &, disown, screen

原文地址：https://www.cnblogs.com/leeshum/p/4903285.html