• 鱼佬数据竞赛直播


    主要内容:

    1.为什么要参加数据挖掘竞赛?能带来什么?

    2.参加竞赛需要哪些基础知识和技能?

    3.如何选择适合自己的竞赛?

    4.竞赛中的几个主要模块

    5.竞赛过程中最重要的事情

    6.好的竞赛总结比竞赛过程更重要

    7.案例分享(天池“全国城市计算A挑战赛”)

    1.为什么要参加数据挖掘竞赛?能带来什么?

     

     2.参加竞赛需要哪些基础知识和技能?

    2.1理论知识掌握:评价指标、数据分析、特征工程、常用模型

    推荐资料:

    吴恩达机器学习课程                                (基础认识 )

    周志华:机器学习                                                                (理论学习)

    机器学习实战(Hands-on Machine Learning with Scikit-Learn and TensorFlow)              ( 应用实战)

    2.2工具的掌握

    语言的选择: Python 

    可视化工具: Matplotlib、 Seaborn 

    数据处理工具: Pandas、 NumPy 

    机器学习库: Sklearn、 XGBoost、 LightGBM、 TensorFlow

    推荐资料:

    利用Python进行数据分析  涉及 NumPy、 pandas、 matplotlib   

    机器学习实战  涉及 Sklearn、 TensorFlow   

    XGBoost和 LightGBM通过比赛和博客来学习

    3.如何选择适合自己的竞赛?

    3.1竞赛平台

    最推荐的两个主流平台——Kaggle和天池
    (1)对于新手来说,Kaggle的优势在于开源分享的氛围,每个比赛在讨论区都有大量的针对此比赛的分享,包括
    Baseline分享,EDA分享等。有些Baseline甚至可以直接进入赛事的Top1%。学习大佬的思路和代码能够少走很
    多弯路,从而可以飞速地进步。Kaggle唯一的缺点就在于全英文,对于国内的同学来说,理解起来可能有些吃
    力。
    (2)天池是阿里巴巴旗下的机器学习平台,目前是国内最大的机器学习类竞赛网站。和Kaggle相比,开源分享的氛
    围不是很强。但近期,天池推出了很多针对初学者的入门教程和视频,包括算法讲解和竞赛套路讲解。从天
    池入门算法竞赛也不失为一个好的选择。

     3.2竞赛分类

    • 从领域归属划分:包含搜索相关性,广告点击率预估,销量预估,贷款违约判定,癌症检测等。
    • 从任务目标划分:包含回归,分类(二分类,多分类,多标签),排序,混合体(分类+回归)等。
    • 按领域归属划分:表格数据(搜索推荐、时间序列)自然语言处理(文本分类、情感分析)

    3.3硬件要求:自己的机器能够支持并完成这场比赛,内存、显卡等,或者借助云服务器。    根据比赛类型,数据大小来确定。     

    3.4与自己专业的相关性:研究方向(如NLP,CV等)

    4.竞赛中的几个主要模块

     4.1问题建模

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    5.竞赛过程中最重要的事情

    5.1海量数据分析(对于数据的理解,业务的分析能力提升

    5.2不断尝试新的idea(相关论文或自己的想法)

    5.3多向优秀的选手学习提问

    6.好的竞赛总结比竞赛过程更重要

    6.1赛后及时总结:自己的整体思路、关键代码、自己的不足、还需要做哪些尝试。

    6.2学习优秀方案:不仅局限于自己的思维方式,其他人是如何思考的,哪里是可以借鉴的,进行对比发现自己的不足。

  • 相关阅读:
    《掌握需求过程》阅读笔记(二)
    《掌握需求过程》阅读笔记(一)
    《软件方法》阅读笔记(三)
    《软件方法》阅读笔记(二)
    《软件方法》阅读笔记(一)
    《大象Think in UML》阅读笔记(三)
    Java中toArray的用法探究(java数组与list转换)
    Eclipse调试常用技巧
    ListView 总结----持续中
    PowerDesigner提示This data item is already used in a primary identifier.的处理
  • 原文地址:https://www.cnblogs.com/HuangYJ/p/11727737.html
Copyright © 2020-2023  润新知