1.spark core :Spark RDD 核心总结;Spark算子选择策略;spark 核心作业调度和任务调度;spark参数调优 ;Spark 运行架构核心总结;Spark Shuffle原理、Shuffle操作问题解决和参数调优
2.spark sql 或者SQL 方面:这方面一直没有机会深入,只是停留在基本了解阶段;
3.spark ml或mllib: 学习的比较松散,都基本了解,但是用的时候少,仅仅在搭建用户画像上用到了一些常见的分类模型
计划深入了解:spark 实现Item-Base CF,xgboost 对spark 的支持;spark-knn
4.python :《机器学习实战》代码部分,部分leetcode代码;接触numpy,matplotlib,pandas,scikit-learn
5.机器学习:《统计学习方法》《机器学习实战》;机器学习总结
计划深入了解:《统计学习基础 数据挖掘 推理 预测》,《数据挖掘概念与技术》