http://www.cnblogs.com/CheeseZH/p/4096546.html
写的还不错。里面还引申了好几个概念,包括AdaBoost,L1/L2正则(范数)等。
提纲列一下:
1. 使用模型默认的损失函数
例如我在珍爱网做付费用户预测时,由于付费用户本身数量级就不大,所以我宁可误判十个,也不能错过一个。所以这个时候我们就需要去修改分类器模型的损失函数。
2. 无根据地选择线性模型
我个人的经验往往是先使用逻辑回归做一次分类,但是同时也会采用决策树,或者SVM等非线性模型来对该数据进行重新的分类比对。
3. 忽视异常值的意义
如果当训练数据中包含一些异常值的时候,我们就需要考虑模型的敏感性了,例如AdaBoost, Kmeans这种就属于对异常值很敏感的机器学习模型。
4. 不考虑n和p的关系
n: 训练数据的数量。p: 特征的数量。如果当n << p的时候,还依然采用SVM来选定模型,那么就必然会导致p进一步增加,于是导致特征的参数中自由变量增加,必然会对分类的效果产生很大的影响。
5. L1 / L2 正则化之前并没有对特征进行标准化
6. 变量之间的共线性问题