一、数据探查
1、数据量大小,足够的数据对学习效果有直接影响;
2、数据缺失或乱码,缺失和乱码影响数据质量,这种情况多的话需要进行数据清洗;
3、字段类型,不同算法对数据类型要求不一致,必要时需要进行转换;
4、是否含有目标队列,决定采用监督或无监督算法,若无目标队列可以考虑用ETL(抽取(extract)、交互转换(transform)、加载(load))操作生成。
二、场景抽象
机器学习主要包括如下几个场景:
1、二分类,比如商品推荐;
2、多分类,如疾病预测;
3、聚类,比如人群划分;
4、回归,股票预测;
三、算法选择
1、确定算法范围,通过数据类型,是否有目标队列,业务适合分类算法、聚类算法还是回归算法等判断来缩小算法范围;
2、多算法尝试,尽可能尝试多算法组合,选择最优的算法;
3、多视角分析,考虑算法的运算量,鲁棒性,资源消耗等。