在本篇文章中,我们主要介绍扫描分发的内容,自我感觉有个不错的建议和大家分享下
Apriori核心算法程过如下:
- 扫描数据集合盘算出各个1项集的持支度,得 到频仍1项集的集合。
- 接连,由2个只有一个项不同的属于的频集做一 个(k-2)JOIN运算到得的。
- 剪枝,由于是的超集,所以可能有些元素不是频仍的。在 潜伏k项集的某个集子不是中的成员是,则该潜伏频仍项集不是能可频仍的可以从中移去。
- 通过 单趟扫描数据集合,盘算中各个项集的持支度,将中不满足持支度的项集去掉构成。
通过迭代循环,重复步调2~4,直到有某个r值使得为空,这时算法止停。在剪枝步中的个每元 素需在易交数据库中进行验证来定决其是不是参加,这里的验证程过 是算法性能的一个瓶颈。这个法方要求多次扫描可能很大的易交数据库。可能生产大批的候选集,以及可能要需重复扫描数据库,是Apriori算法的两大缺 点。
现在,几乎有所高效的发明关联规则的并行数据挖掘算法都是基于Apriori算法 的,Agrawal和Shafer 提出了三种并行算法:数计发分(Count Distribution)算法、数据发分(Data Distribution)算法和候选发分(Candidate Distribute)算法。
文章结束给大家分享下程序员的一些笑话语录:
自行车
一个程序员骑着一个很漂亮的自行车到了公司,另一个程序员看到了他,问 到,“你是从哪搞到的这么漂亮的车的?”
骑车的那个程序员说, “我刚从那边过来, 有一个漂亮的姑娘骑着这个车过来, 并停在我跟前,把衣服全脱了,然后对我说,‘你想要什么都可以’”。
另一个程序员马上说到, “你绝对做了一个正确的选择, 因为那姑娘的衣服你 并不一定穿得了”。