如何选择机器学习算法

如何选择机器学习算法

本文转自http://www.52ml.net/15063.html

倘若你只是想针对你的问题寻找一个“足够好”的算法，或者一个起步点，这里给出了一些还不错的常规指南。

1.训练集大小

如果是小训练集，高偏差/低方差的分类器（比如朴素贝叶斯）要比低偏差/高方差的分类器（比如k最近邻）具有优势，因为后者容易过拟合。然而随着训练集的增大，低偏差/高方差的分类器将开始具有优势（它们拥有更低的渐近误差），因为高偏差分类器对于提供准确模型不那么给力。高方差和高偏差的一个解释：高方差就是测试误差远远小于训练误差，如果是高偏差就是（可能使本来是一个二次模型，结果使用的是一次模型）拟合的效果不好。偏差是说训练误差，方差说的是测试误差。这一点的区别也可以看成是生成模型（贝叶斯法和隐马尔科夫模型，是先求联合概率分布，再求条件概率分布）模型和判别模型（KNN,感知机，决策树，逻辑斯蒂回归，最大熵，SVM，提升方法，条件随机场等）的差别

2.常用算法的优缺点

朴素贝叶斯（Naive Bayes，NB）: 计算先验概率P（Y）条件概率P（x|y），在x给定情况下计算P（Y）P（x|y）找出最大的Y

　　优点：简单，你只要做些算术就好了。倘若条件独立性假设确实满足，朴素贝叶斯分类器将会比判别模型，譬如逻辑回归收敛得更快，因此你只需要更少的训练数据。就算该假设不成立，朴素贝叶斯分类器在实践中仍然有着不俗的表现。如果你需要的是快速简单并且表现出色，这将是个不错的选择。

　　缺点：其主要缺点是它学习不了特征间的交互关系（比方说，它学习不了你虽然喜欢甄子丹和姜文的电影，却讨厌他们共同出演的电影《关云长》的情况）。

Logistic回归(Logistic Regression, LR)有很多方法来对模型正则化。比起NB的条件独立性假设，LR不需要考虑样本是否是相关的。与决策树与支持向量机（SVM）不同，NB有很好的概率解释，且很容易利用新的训练数据来更新模型（使用在线梯度下降法）。如果你想要一些概率信息（如，为了更容易的调整分类阈值，得到分类的不确定性，得到置信区间），或者希望将来有更多数据时能方便的更新改进模型，LR是值得使用的。

决策树（Decision Tree, DT）
DT容易理解与解释。DT是非参数的，所以你不需要担心野点（或离群点）和数据是否线性可分的问题（例如，DT可以轻松的处理这种情况：属于A类的样本的特征x取值往往非常小或者非常大，而属于B类的样本的特征x取值在中间范围）。

DT的主要缺点是容易过拟合，这也正是随机森林（Random Forest, RF）（或者Boosted树）等集成学习算法被提出来的原因。此外，RF在很多分类问题中经常表现得最好（我个人相信一般比SVM稍好），且速度快可扩展，也不像SVM那样需要调整大量的参数，所以最近RF是一个非常流行的算法。

支持向量机（Support Vector Machine, SVM）
很高的分类正确率，对过拟合有很好的理论保证，选取合适的核函数，面对特征线性不可分的问题也可以表现得很好。SVM在维数通常很高的文本分类中非常的流行。

由于较大的内存需求和繁琐的调参

更好的数据往往比更好的算法更重要，提取好的特征也需要很大的功夫。如果你的数据集非常大，那么分类算法的选择可能对最后的分类性能影响并不大（所以可以根据运行速度或者易用性来选择）。

如果你很在意分类的正确率，那么你得尝试多种分类器，根据交叉验证的结果来挑选性能最好的。或者，学习下Netflix Prize和Middle Earth, 使用某种集成的方法来组合多个分类器。
相关阅读:
PAT A1097 Deduplication on a Linked List （25 分）——链表
 PAT A1115 Counting Nodes in a BST （30 分）——二叉搜索树，层序遍历或者dfs
PAT A1113 Integer Set Partition （25 分）——排序题
 PAT A1112 Stucked Keyboard （20 分）——字符串
 PAT A1118 Birds in Forest （25 分）——并查集
 JAVA入门之程序设计环境搭建
 Win7命令终端基础配色指南
 泛微e-cology和Oracle无法启动的解决方案
 C指针和数组
 float类型与16进制的相互转换
原文地址：https://www.cnblogs.com/huicpc0212/p/4761778.html