• 用Seaborn绘制图表


    作者|Jenny Dcruz
    编译|VK
    来源|Towards Datas Science

    Seaborn是一个功能强大的Python库,用于增强数据可视化。它为Matplotlib提供了大量高级接口。Seaborn可以很好地处理数据帧,而Matplotlib则不行,它可以让你以更简单的方式绘制引人注目的图表。

    为了更好地理解本文,你需要了解pandas和matplotlib的基础知识。如果没有,可以参考以下文章:

    1. 用Pandas进行数据分析:https://towardsdatascience.com/pandas-for-data-analysis-142be71f63dc

    2. 使用Matplotlib进行可视化:https://towardsdatascience.com/visualizations-with-matplotlib-4809394ea223

    确保系统中安装了必要的库:

    使用conda:

    conda install pandas
    conda install matplotlib
    conda install seaborn
    

    使用pip:

    pip install pandas
    pip install matplotlib
    pip install seaborn
    

    让我们首先导入所需的Python库和数据集。

    你可以在这里找到本教程的CSV文件:https://github.com/jendcruz22/Medium-articles/tree/master/Plotting charts with Seaborn

    import pandas as pd
    from matplotlib import pyplot as plt
    import seaborn as sns
    
    df = pd.read_csv('Pokemon.csv', index_col = 0, encoding='unicode-escape')
    df.head()
    

    在上面的代码中,我们将index_col设置为0,这表示我们将第一列视为索引。

    使用seaborn和Pokemon(口袋妖怪)数据集的属性,我们将创建一些非常有趣的可视化效果。我们首先要看的是散点图。

    散点图

    散点图使用点来表示不同数值变量的值。每个点在水平轴和垂直轴上的位置表示单个数据点的值。它们用于观察变量之间的关系。

    在seaborn中制作散点图只需要使用“lmplot”函数。为此,我们将dataframe传递给data参数,然后传入x和y轴的列名。

    默认情况下,散点图还显示一条回归线,它是一条最适合数据的直线。

    sns.lmplot(x=’Attack’, y=’Defense’, data=df)
    plt.show()
    

    在这里你可以看到我们的散点图,它显示了进攻得分与防守得分的比较。

    我们的回归线基本上显示了两轴之间的相关性。在这种情况下,它是向上倾斜的。也就是说当进攻得分越来越高,防守得分也会越来越高。要删除回归线,可以将“fitreg”参数设置为false。

    此外,我们可以通过设置hue参数来在Pokemon的进化阶段着色。这个色调的参数是非常有用的,因为它允许你用颜色来表达第三维度的信息。

    sns.lmplot(x=’Attack’, y=’Defense’, data=df, fit_reg=False, hue=’Stage’)
    plt.show()
    

    散点图看起来和之前的一样,除了中间没有回归线,而且每个点的颜色也不同。这些颜色只是显示了每个小精灵的阶段。Stage只是我们之前看到的数据中的另一个属性。

    通过这张图,我们可以得出这样的结论:在第一阶段的pokemon(蓝点)通常比在更高阶段的pokemon得分更低。

    箱线图

    箱线图是常用于显示数据分布的重要图之一。在seaborn中只需要一行代码就可以使用boxplot函数显示箱线图。在本例中,我们将使用除total、stage和legendary属性之外的整个dataframe。

    df_copy = df.drop([‘Total’, ‘Stage’, ‘Legendary’], axis=1)
    sns.boxplot(data=df_copy)
    

    在这里我们可以看到每个属性都有其各自的箱线图。

    箱线图基于5个数字摘要,每个摘要以不同的行显示。中间的线是中值,是数据的中心点。箱线图末端的最底部和最顶部的线是四分位数1和4的中位数,基本上显示了分布的最小值和最大值。中间的另外两条线是四分位数2和3的中位数,它们显示了值与中位数之间的差异。超出此范围的单点表示数据中的异常值。

    小提琴图

    小提琴图与箱线图相似。小提琴图是箱线图非常有用的替代品。它们通过小提琴的厚度来显示分布,而不只是简要的统计。众所周知,小提琴图在分析和可视化数据集中不同属性的分布时非常方便。

    在本例中,我们将使用上一个示例中的相同数据帧副本。

    sns.violinplot(data=df_copy)
    plt.show()
    

    我们可以观察到口袋妖怪每个属性的值分布。小提琴较厚的区域意味着值的密度更高。小提琴图的中间部分通常比较厚,这意味着那里的值密度很高。我们比较了下一个口袋妖怪的攻击类型。为此,让我们使用相同的小提琴绘图方法。

    plt.figure(figsize=(10,6))sns.violinplot(x='Type 1', y='Attack', data=df)
    plt.show()
    

    这个图显示了每个口袋妖怪的主要类型的攻击分数分布。如你所见,“龙”型口袋妖怪的攻击得分最高,但它们也有较高的方差,这意味着它们的攻击分数也非常低。“Ghost”主类型的方差非常低,这意味着它们的大多数数据值都集中在中心。

    热图

    热图帮助你可视化矩阵类型的数据。例如,我们可以将口袋妖怪不同属性之间的所有关联可视化。

    让我们通过调用“corr”函数来计算数据帧的相关性,并使用“heatmap”函数绘制热图。

    corr = df_copy.corr()
    sns.heatmap(corr)
    

    上面的热图显示了我们数据帧的相关性。

    长方体的颜色越浅,这两个属性之间的相关性就越高。例如,血量和口袋妖怪的整体速度之间的相关性非常低。因此,盒子的颜色是深色的。HP和防御速度之间的相关性非常高,因此我们可以在热图中看到一个红色方块。我们可以看到,当一个属性变高时,其他属性也会变高,比如防守速度。

    直方图

    直方图允许你绘制数值分布图。如果我们要使用matplotlib来创建柱状图,那么与使用seaborn创建柱状图相比,这将需要更多的工作。对于seaborn,只需要一行代码就可以创建。

    例如,我们可以创建一个直方图来绘制带有攻击属性的分布。

    sns.distplot(df.Attack, color=’blue’)
    

    我们可以看到大多数口袋妖怪都在50-100之间。我们可以看到,攻击值大于100或小于50的口袋妖怪要少得多。

    Calplots公司

    与条形图类似,calplots允许你可视化每个类别变量的分布。我们可以使用calplot来查看每种主要类型中有多少口袋妖怪。

    sns.countplot(x=’Type 1', data=df)
    plt.xticks(rotation=-45)
    

    我们可以看到,“水”类的口袋妖怪最多,而“仙女”和“冰”类的口袋妖怪最少。

    密度图

    密度图显示两个变量之间的分布。例如,我们可以使用密度图来比较口袋妖怪的两个属性:攻击值、防御值。我们将使用'jointplot'函数来完成此操作。

    sns.jointplot(df.Attack, df.Defense, kind=’kde’, color=’lightblue’)
    

    “kde”表示我们需要一个密度图。

    如你所见,绘图区域在黑暗中的变化取决于区域中的值的数量。黑暗区域预示着一种非常牢固的关系。从这个图中我们可以看出,当攻击值在50到75之间时,防御值在50左右。

    关于这篇文章。我希望你喜欢用seaborn可视化数据。

    你可以在这里找到本文的代码和数据集:https://github.com/jendcruz22/Medium-articles/tree/master/Plotting charts with Seaborn

    感谢你的阅读!

    参考引用

    [1] Seaborn文档:https://seaborn.pydata.org/

    原文链接:https://towardsdatascience.com/plotting-charts-with-seaborn-e843c7de2287

    欢迎关注磐创AI博客站:
    http://panchuang.net/

    sklearn机器学习中文官方文档:
    http://sklearn123.com/

    欢迎关注磐创博客资源汇总站:
    http://docs.panchuang.net/

  • 相关阅读:
    [LeetCode] String to Integer (atoi) 解题报告
    [LeetCode] Spiral Matrix 解题报告
    推导基姆拉尔森公式根据日期计算星期
    gdb常用命令的用法
    利用基姆拉尔森公式根据日期计算星期
    RIM推出BlackBerry SDK 助力开发者多种应用程序开发
    ERP环境下物料清单的数据结构研究[转]
    VSTO EXCEL篇学习笔记五【原】
    高德纳传奇[转]
    PLM中BOM核心技术的研究[转]
  • 原文地址:https://www.cnblogs.com/panchuangai/p/13855203.html
Copyright © 2020-2023  润新知