• 数据可视化实例(七): 计数图(matplotlib,pandas)


    https://datawhalechina.github.io/pms50/#/chapter5/chapter5

    计数图 (Counts Plot)

    避免点重叠问题的另一个选择是增加点的大小,这取决于该点中有多少点。 因此,点的大小越大,其周围的点的集中度越高。

    导入所需要的库

    import numpy as np
    # 导入pandas库
    import pandas as pd
    # 导入matplotlib库
    import matplotlib as mpl
    import matplotlib.pyplot as plt
    # 导入seaborn库
    import seaborn as sns
    # 在jupyter notebook显示图像
    %matplotlib inline

    设定图像各种属性

    large = 22; med = 16; small = 12
                # 设置子图上的标题字体
    params = {'axes.titlesize': large,  
                # 设置图例的字体
              'legend.fontsize': med,
                # 设置图像的画布
              'figure.figsize': (16, 10),  
                # 设置标签的字体
              'axes.labelsize': med, 
                # 设置x轴上的标尺的字体
              'xtick.labelsize': med,  
                # 设置整个画布的标题字体
              'ytick.labelsize': med,  
              'figure.titlesize': large}  
    # 更新默认属性
    plt.rcParams.update(params)  
     # 设定整体风格
    plt.style.use('seaborn-whitegrid')
    # 设定整体背景风格
    sns.set_style("white")  

    # step1:导入数据

    df = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/mpg_ggplot2.csv")
        # groupby__可对具有相同'hwy','cty'进行分组
        # size__返回元素的数量
        # reset_index__重新设置连续的行索引index
            # name_计数的列名
    df_counts = df.groupby(['hwy', 'cty']).size().reset_index(name = 'counts')

    # step2:绘画 Stripplot

        # 设置画布
    fig, ax = plt.subplots(figsize = (12, 8), dpi = 80)
                  # 横坐标
    sns.stripplot(df_counts.cty,
                  # 纵坐标
                  df_counts.hwy,
                  # 尺寸
                  size = df_counts.counts * 2,
                  # 子图
                  ax = ax)

    # step3:装饰

        # 添加标题
    plt.title('Counts Plot - Size of circle is bigger as more points overlap', fontsize=22)
        # 显示图像
    plt.show()

    seaborn.stripplot(x=None, y=None, hue=None, 
    data=None, order=None, hue_order=None, jitter=True, dodge=False, 
    orient=None, color=None, palette=None, size=5, edgecolor='gray', linewidth=0, ax=None, **kwargs)

    绘制一个散点图,其中一个变量是分类。

    条形图可以单独绘制,但如果您想要显示所有观察结果以及底层分布的某些表示,它也是一个盒子或小提琴图的良好补充。

    输入数据可以以多种格式传递,包括:

    • 表示为列表,numpy数组或pandas Series对象的数据向量直接传递给xyhue参数
    • 在这种情况下,xyhue变量将决定数据的绘制方式。
    • “wide-form” DataFrame, 用于绘制每个数字列。
    • 一个数组或向量列表。

    在大多数情况下,可以使用numpy或Python对象,但最好使用pandas对象,因为关联的名称将用于注释轴。另外,您可以使用分组变量的分类类型来控制绘图元素的顺序。

    此函数始终将其中一个变量视为分类,并在相关轴上的序数位置(0,1,... n)处绘制数据,即使数据具有数字或日期类型也是如此。

    有关更多信息,请参阅教程

    参数:x, y, hue: 数据或矢量数据中的变量名称,可选

    用于绘制长格式数据的输入。查看解释示例。

    data:DataFrame, 数组, 数组列表, 可选

    用于绘图的数据集。如果 x 和 y 不存在,则将其解释为宽格式。否则预计它将是长格式的。

    order, hue_order:字符串列表,可选

    命令绘制分类级别,否则从数据对象推断级别。

    jitter:float, True/1 是特殊的,可选

    要应用的抖动量(仅沿分类轴)。 当您有许多点并且它们重叠时,这可能很有用,因此更容易看到分布。您可以指定抖动量(均匀随机变量支持的宽度的一半),或者仅使用True作为良好的默认值

    dodge:bool, 可选

    使用 hue 嵌套时,将其设置为 True 将沿着分类轴分离不同色调级别的条带。否则,每个级别的点将相互叠加。

    orient:“v” | “h”, 可选

    图的方向(垂直或水平)。这通常是从输入变量的dtype推断出来的,但可用于指定“分类”变量何时是数字或何时绘制宽格式数据。

    color:matplotlib颜色,可选

    所有元素的颜色,或渐变调色板的种子。

    palette:调色板名称,列表或字典,可选

    用于色调变量的不同级别的颜色。应该是 color_palette(), 可以解释的东西,或者是将色调级别映射到matplotlib颜色的字典。

    size:float, 可选

    标记的直径,以磅为单位。(虽然 plt.scatter 用于绘制点,但这里的 size 参数采用“普通”标记大小而不是大小^ 2,如 plt.scatter 。

    edgecolor:matplotlib颜色,“灰色”是特殊的,可选的

    ax:matplotlib轴,可选

    返回Axes对象,并在其上绘制绘图。

    返回值:ax:matplotlib轴

    返回Axes对象,并在其上绘制绘图。

    也可参看

    分类散点图,其中点不重叠。可以与其他图一起使用来显示每个观察结果。带有类似API的传统盒须图。箱形图和核密度估计的组合。

    https://www.cntofu.com/book/172/docs/14.md

  • 相关阅读:
    [读书笔记]-大话数据结构-4-栈与队列(二)-队列
    [读书笔记]-大话数据结构-4-栈与队列(一)-栈、共享栈和链栈
    [读书笔记]-大话数据结构-3-线性表(二)-线性表的链式存储
    [读书笔记]-大话数据结构-3-线性表(一)-线性表的顺序存储
    [读书笔记]-大话数据结构-2-算法
    [读书笔记]-大话数据结构-1-数据结构绪论
    Linux Shell脚本教程:30分钟玩转Shell脚本编程(笔记)
    scikit-learn学习
    xampp启动遇到的小问题
    选项卡小结
  • 原文地址:https://www.cnblogs.com/qiu-hua/p/12873356.html
Copyright © 2020-2023  润新知