学习内容
本次学习内容是数据的探索性分析(EDA)
作为新手,对EDA的方法以及python库的用法比较陌生,本次学习内容对我来说有些吃力,内容有些多,后面的内容没怎么看懂。
于是把示例代码在jupyter notebook里敲了一遍,熟悉了EDA的一些基本方法。
- 载入各种数据科学以及可视化库
- 载入数据的方法,简略观察数据的方法
- 数据总览(describe, info)
- 判断数据缺失和异常(查看每列nan情况,异常值检测)
- 了解预测值分布
- 特征分为类别特征和数字特征,对类别特征查看unique分布
- 数字特征分析
- 类型特征分析
- pandas.profiling生成数据报告
学习感想
本次学习主要是照葫芦画瓢,缺少自己的想法,可能主要是0经验的缘故
当很多的数据呈现在眼前时,学会去对数据有个基本的认识是很重要的,而这种认识需要一些统计知识的支撑(这也是我所缺乏,后面需要自学的内容)
数据的可视化也有很大的帮助,如何绘图,用什么库绘图,绘图技巧都需要不断的学习。
总的来说,这次学习让我熟悉了EDA的基本流程,以后进行数据探索性分析的时候会有基本的思路。