在美国 2006 年机器学习和知识发现年会,数据挖掘(Data Mining)哪些算法使用率较高?现场投票结果可以给我们一点线索。数据挖掘有十大经典算法为:C4.5,K-Means,SVM,Apriori,EM,PageRank,AdaBoost,KNN,NB 和 CART。
表 美国2006年机器学习和知识发现年会数据挖掘使用率较高算法排名
算法 |
票数 |
百分率 |
典型算法 |
决策树 Decision Tree | 127 | 62.6% | C4.5、CART |
回归 Regression | 104 | 51.2% | |
聚类算法 Clustering | 102 | 50.2% | K-Means、BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) |
描述性统计分析 Statistics(descriptive) | 94 | 46.3% | |
可视技术 Visualization | 66 | 32.5% | |
关联法则 Association Rules | 53 | 26.1% | GSP(Generalized Sequential Pattern)、Apriori |
时序 Sequence/Time series Analysis | 35 | 17.2% | |
神经网络 Neural Nets | 35 | 17.2% | |
支持向量机 Support Vector Machine(SVM) | 32 | 15.8% | |
贝叶斯 Bayesian | 32 | 15.8% | NB(Naive Bayesian) |
Boosting | 30 | 14.8% | AdaBoost |
近邻 Nearest Neighbours | 26 | 12.8% | K Nearest Neighbours(KNN) |
模型合成 Hybrid Methods | 24 | 11.8% | |
其他 Other | 23 | 11.3% | |
遗传算法 Genetic Algorithms | 23 | 11.3% | |
Bagging | 22 | 10.8% | |
共203人投票 |
由于是自愿投票,对投票人的背景、行业和领域没有任何限制,因此本结果在代表性方面当然不够完整。但是,我们还是可以通过这个调查粗略了解目前数据挖掘算法的态势。总的来说,用于分类和预测的决策树和回归算法,以及用于描述聚类分析占主导地位。
决策树和逻辑回归从技术角度看,都不是太高深的算法。但是能得到普遍应用,说明他们在解决不同行业,不同领域中,数据挖掘问题上都有很好的功效,说明企业管理人员对这些算法接受程度较好,也反映了企业拥有的数据并不是复杂到一定要用高深的算法可能应对。此外不可忽视的是,这些算法在运算速度上都有一定优势。