背景介绍
如今,大数据就像是一座潜力无穷的金矿,最核心的价值需要通过挖掘分析才能体现。各行各业的互联网化,让数据得到更广泛的应用。
而从事数据分析、数据挖掘、数据处理的岗位的人才其实相当稀缺, 如今掌握数据挖掘思维和技能,将会为你的升职加薪打牢基础。
专栏解读
这个专栏从构建数据挖掘思维的角度出发,为你详解数据挖掘,具体分为三大部分:
第一部分、基础知识准备。 你建立对数据挖掘的全局认知,学习课程中可能会涉及的一些基础知识(包括必备的 Python 语言知识,以及如何搭建 Python 环境),夯实基础知识,帮你快速进入状态。
第二部分、数据挖掘过程。 授人以鱼不如授人以渔,这个部分的重点是让你能够在思想和行为上都做足准备,全面细致地了解数挖掘方法的实施过程。从理论到实战搞懂“数据挖掘”这个词是如何一步步变具体的。
第三部分、算法详解。 涉及数据挖掘的分类、聚类、回归、关联分析这四大问题,以及自然语言处理的部分知识。着重介绍核心算法的理念、优缺点、应用场景,让你能够快速上手应用。每个模块的最后一个课时,都会通过实践案例,让你掌握实战处理技巧。
彩蛋: 专栏的最后会提供数据挖掘的开源工具和学习资源: 如果你不会写代码,也可以先使用这些工具来进行数据挖掘;如果你希望在数据挖掘方面有更加深入的学习和理解,那么这些资源也会帮到你。
讲师简介
贺夏龙 马蜂窝数据挖掘负责人、高级算法专家
目前负责 ToC 端内容理解、内容结构化、内容反作弊等研发和管理工作。他在信息流推荐、自然语言处理和数据挖掘方向有多年技术和团队管理经验,曾主导过推荐系统标签体系建设、数字化内容运营平台、用户画像平台,以及旅行知识图谱等大型项目,擅长运用算法解决实际问题。
课程大纲:
模块一:数据挖掘基础知识
01 | 数据挖掘,到底在解决什么问题?
02 | Python 的数据结构和基本语法
03 | 工欲善其事必先利其器,扩展包与 Python 环境
模块二:数据挖掘工作流程
04 | 理解业务和数据:我们需要做好什么计划?
05 | 准备数据:如何处理出完整、干净的数据?
06 | 数据建模:该如何选择一个适合我需求的算法?
07 | 模型评估:如何确认我们的模型已经达标?
08 | 模型应用:我们的模型是否可以解决业务需求?
模块三:分类问题
09 | KNN 算法:近朱者赤,近墨者黑
10 | 决策树:女神使用的约会决策
11 | 朴素贝叶斯:算一算你是否要买延误险
12 | 支持向量机(SVM):用一条线分开红豆与绿豆
13 | 人工神经网络:当前最火热的深度学习基础
14 | 实践 1:使用 XGB 实现酒店信息消歧
模块四:聚类问题
15 | k-means 聚类:擒贼先擒王,找到中心点,它附近的都是一类
16 | DBScan 聚类:打破形状的限制,使用密度聚类
17 | 实践 2:如何使用 word2vec 和 k-means 聚类寻找相似的城市
模块五:回归问题
18 | 线性回归与逻辑回归:找到一个函数去拟合数据
19 | 实践 3:预测酒店价格
模块六:关联分析
20 | Apriori 与 FP-Growth:不得不再说一遍啤酒与尿布的故事
21 | 实践 4:用关联分析找到景点与玩法的关系
模块七:自然语言处理
22 | TF-IDF:一种简单、古老,但有用的关键词提取技术
23 | word2vec:让文字可以进行逻辑运算,女人+王冠=女王
24 | 实践 5:使用 fastText 进行新闻文本分类
彩蛋 | 数据挖掘工程师如何进阶