构建一个简单的在线学习pipeline,主要包括样本的生成,模型的训练等。众所周知腾讯开源的一个框架叫angel以及阿里的alink,这两个框架有很多算法模型,可以拿来直接使用。这里面当然也有像FTRL这样的在线更新模型,后期有机会可以利用angel和alink进行相关测试。
大数据处理采用Flink,之所以选择Flinik,是因为之前用过spark,并一直对Flink中的流式处理很好奇(也一直在学习Flink中),所以打算试一试。
在线模型采用FTRL进行参数更新。
前期准备及尝试:
1.采用Flink实时读取、处理和构建样本
2.利用在线模型进行训练、调试和更新