EDA 是数据科学工作流程的关键步骤,Pandas-profiling可以通过一行代码快速完成EDA报告,并且能够提供有意义的见解。
在我们上次介绍EDA工具时,一直将Pandas Profiling用作处理结构化表格数据的工具。但是在现实世界的应用中,我们日常生活中最长接触到的是时间序列数据:日常行动轨迹数据,电力和水资源消耗数据,它们都有一个共同点——对时间的依赖性。
由于时间序列数据的性质,在探索数据集时分析的复杂性随着在同一数据集中添加实体个数的增加而增加。在这篇文章中,我将利用 pandas-profiling 的时间序列特性,介绍EDA中的一些关键步骤。
我们这里使用的数据集是美国的空气质量数据集,可以从 EPA 网站下载。本文完整的代码和示例可以在 GitHub 中找到。
完整文章:
https://avoid.overfit.cn/post/4dda70e748f94b6ca201426bdc36b88b