数据挖掘经典算法
国际权威的学术组织ICDM,于06年12月年评选出的数据挖掘领域的十大经典算法:
C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.
个人论文采用的是Apriori,所以针对于此总结一下
基本概念:
1.支持度(P(AB)),置信度(条件概率P(B|A))
例如:啤酒,尿布支持度3%,置信度80%
同时购买啤酒,尿布的是3%,购买啤酒的人中80%会买尿布
2.强规则:同时满足最小支持度阈值和最小置信度阈值的规则
3.k项集,频繁k项集:事件A中包括k个元素,满足最小支持度阈值
步骤说明