主要内容:
1.为什么要参加数据挖掘竞赛?能带来什么?
2.参加竞赛需要哪些基础知识和技能?
3.如何选择适合自己的竞赛?
4.竞赛中的几个主要模块
5.竞赛过程中最重要的事情
6.好的竞赛总结比竞赛过程更重要
7.案例分享(天池“全国城市计算A挑战赛”)
1.为什么要参加数据挖掘竞赛?能带来什么?
2.参加竞赛需要哪些基础知识和技能?
2.1理论知识掌握:评价指标、数据分析、特征工程、常用模型
推荐资料:
吴恩达机器学习课程 (基础认识 )
周志华:机器学习 (理论学习)
机器学习实战(Hands-on Machine Learning with Scikit-Learn and TensorFlow) ( 应用实战)
2.2工具的掌握
语言的选择: Python
可视化工具: Matplotlib、 Seaborn
数据处理工具: Pandas、 NumPy
机器学习库: Sklearn、 XGBoost、 LightGBM、 TensorFlow
推荐资料:
利用Python进行数据分析 涉及 NumPy、 pandas、 matplotlib
机器学习实战 涉及 Sklearn、 TensorFlow
XGBoost和 LightGBM通过比赛和博客来学习
3.如何选择适合自己的竞赛?
3.1竞赛平台
最推荐的两个主流平台——Kaggle和天池
(1)对于新手来说,Kaggle的优势在于开源分享的氛围,每个比赛在讨论区都有大量的针对此比赛的分享,包括
Baseline分享,EDA分享等。有些Baseline甚至可以直接进入赛事的Top1%。学习大佬的思路和代码能够少走很
多弯路,从而可以飞速地进步。Kaggle唯一的缺点就在于全英文,对于国内的同学来说,理解起来可能有些吃
力。
(2)天池是阿里巴巴旗下的机器学习平台,目前是国内最大的机器学习类竞赛网站。和Kaggle相比,开源分享的氛
围不是很强。但近期,天池推出了很多针对初学者的入门教程和视频,包括算法讲解和竞赛套路讲解。从天
池入门算法竞赛也不失为一个好的选择。
3.2竞赛分类
- 从领域归属划分:包含搜索相关性,广告点击率预估,销量预估,贷款违约判定,癌症检测等。
- 从任务目标划分:包含回归,分类(二分类,多分类,多标签),排序,混合体(分类+回归)等。
- 按领域归属划分:表格数据(搜索推荐、时间序列)自然语言处理(文本分类、情感分析)
3.3硬件要求:自己的机器能够支持并完成这场比赛,内存、显卡等,或者借助云服务器。 根据比赛类型,数据大小来确定。
3.4与自己专业的相关性:研究方向(如NLP,CV等)
4.竞赛中的几个主要模块
4.1问题建模
5.竞赛过程中最重要的事情