• Python机器学习(八十)Pandas 介绍


    Pandas 是一个开放源码、BSD许可的库,为Python编程语言提供高性能、易于使用的数据结构和数据分析工具。Pandas基于NumPy开发。

    Pandas 用途

    Pandas 是一个数据分析工具,可用来清理、转换和分析数据。

    例如,我们有一个csv格式的数据集,我们可以把数据提取到Pandas的DataFrame中,然后就可以使用Pandas对其分析处理:

    • 每一列的平均值、中值、最大值或最小值是多少?
    • 列A和列B相关吗?
    • C列中的数据分布情况如何?
    • 通过删除缺失的值和根据某些标准过滤行或列来清理数据。
    • 在Matplotlib的帮助下可视化数据。图条、线、直方图、气泡等等。
    • 将清理后的数据存储回CSV、或其他文件、数据库。

    在开始对数据进行建模或可视化之前,我们通常需要很好地理解数据集的性质,而panda是实现这一目标的最佳途径。

    Pandas与其他工具包怎么配合

    Pandas 库是Python数据科学工具包的一个中心组件,通常与其他库一起配合使用。

    Pandas 基于NumPy包构建,Pandas中使用了很多NumPy的数据结构,这些数据结构在很多Python数据科学工具包中都是通用的。Pandas的数据可用于SciPy中的统计分析,Matplotlib中的函数绘图,Scikit-learn中的机器学习算法。

  • 相关阅读:
    表单小知识
    HTML列表,表格与媒体元素
    P1008 三连击
    打鱼晒网问题
    最小编辑距离算法
    算法设计与分析--01背包问题(动态规划法解决)
    文件读写函数
    C语言中数据输入输出到文件操作freopen()函数(1)
    输入输出框架(未完待续)
    阶乘1到阶乘n的和
  • 原文地址:https://www.cnblogs.com/huanghanyu/p/13173968.html
Copyright © 2020-2023  润新知