关于模型选择

无论是分析还是预测，都有很多种方法，可以使用多种模型，在可以使用多种模型时，如何去选择，这是一个算法工程师常遇到的问题。下面是在工作

用事实说话，直接评估各个模型结果的好坏。哪个结果好，就选哪个模型。这里评估模型好坏的指标要根据实际情况而定。一般情况下，有precision,recall,roc area / auc 等，评价时一般会使用交叉验证。
从理论入手。有些模型会更适合做某类工作。例：如果特征之间有较强的关联，那么就不要用NB（ps：使用NB时不要做特征关联，如果真感觉有特征之间有联系，那还是换模型吧）。如果训练数据的量很大，那建议使用复杂度低、求解简单的模型，否则的话，再好的模型你求不出解也是扯蛋。如果问题本身比较简单（较少的特征就能刻画出问题，且没有太多的潜在因素）则不必要用过于复杂的模型。举个例子，垃圾邮件过滤（开发票等垃圾广告）使用NB这种比较简单的模型就能解决。当然你要使用svm这种模型也没问题。提到复杂模型与简单模型，不得不再说一下偏差与方差。复杂的模型具有较高的方差，而简单的模型具有较高的偏差。to do ..
如果两个模型性能差不多，那么按照奥卡姆剃刀原则，选择模型复杂度低的模型。

相关阅读:
python学习：字符编码与转码
python学习：文件操作
python学习：基本运算符
python学习：列表、元组、字典、集合
python学习：基础知识
linux常用命令
hadoop手动安全模式
System.getProperty("user.dir")的理解
如何获取SpringBoot项目的applicationContext对象
spring无法注入bean

原文地址：https://www.cnblogs.com/nocml/p/5365644.html