1,将问题抽象成数学问题,是分类,是回归或者是聚类问题。
2,获取数据
获取数据集,或者创造数据集。
数据要均匀,否则会因为过多某一种学习数据特征,造成过拟合。
数据的数量级对内存影响。
3,数据的预处理和特征选择
归一化,离散化,因子化,缺失项处理等。
同时,对数据的挖掘,从现有数据提取出新数据,能够很大影响结果数据。
4,训练和调优
符合数据的模型,符合数据特征的损失函数。过拟合调优则增加数据量,降低模型复杂度(参数过多,超平面过于复杂)。欠拟合则提高特征数量和质量,增加模型复杂度。(参数少,超平面简单)
5,模型诊断
模型好坏不是针对一个数据集,最终模型要看它的鲁棒性。交叉验证,模型复杂度。同时模型的效果好坏。
6,模型融合
一般来说,模型融合都可以提升效果。
7,上线运行
各种模型实际运用到工程中的效果。