Pandas 是一个开放源码、BSD许可的库,为Python编程语言提供高性能、易于使用的数据结构和数据分析工具。Pandas基于NumPy开发。
Pandas 用途
Pandas 是一个数据分析工具,可用来清理、转换和分析数据。
例如,我们有一个csv格式的数据集,我们可以把数据提取到Pandas的DataFrame中,然后就可以使用Pandas对其分析处理:
- 每一列的平均值、中值、最大值或最小值是多少?
- 列A和列B相关吗?
- C列中的数据分布情况如何?
- 通过删除缺失的值和根据某些标准过滤行或列来清理数据。
- 在Matplotlib的帮助下可视化数据。图条、线、直方图、气泡等等。
- 将清理后的数据存储回CSV、或其他文件、数据库。
在开始对数据进行建模或可视化之前,我们通常需要很好地理解数据集的性质,而panda是实现这一目标的最佳途径。
Pandas与其他工具包怎么配合
Pandas 库是Python数据科学工具包的一个中心组件,通常与其他库一起配合使用。
Pandas 基于NumPy包构建,Pandas中使用了很多NumPy的数据结构,这些数据结构在很多Python数据科学工具包中都是通用的。Pandas的数据可用于SciPy中的统计分析,Matplotlib中的函数绘图,Scikit-learn中的机器学习算法。