• Python代写数据可视化-seabornIris鸢尾花数据


    原文链接:http://tecdat.cn/?p=5261

    首先介绍一下Iris鸢尾花数据集,内容摘自百度百科:Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。“Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类”。

    导入库

     

    读取数据

     

    数据字段介绍:

    • sepal_length:花萼长度,单位cm
    • sepal_花萼宽度,单位cm
    • petal_length:花瓣长度,单位cm
    • petal_花瓣宽度,单位cm
    • 种类:setosa(山鸢尾),versicolor(杂色鸢尾),virginica(弗吉尼亚鸢尾)

    在做categorical visualization的时候,seaborn给出了基础的stripplot & swarmplot, boxplot & violinplot, barplot & pointplot,以及抽象化的factorplot.下面就用纸鸢花数据集做一下讲解。

    StripplotStripplot的本质就是把数据集中具有quantitative属性的变量按照类别去做散点图(Scatterplot)。

    我们将纸鸢花数据集中不同种类花的sepal length做stripplot可视化

    plt.show()

    上边左侧的图片便是在默认风格下用stripplot绘制的散点图。在很多情况下,stripplot中的点会重叠,使得我们不容易看出点的分布情况。一个简单的解决办法就是用在stripplot的基础上绘制抖动图(jitterplot),仅沿着类别坐标轴的方向去随机微调整点的位置,显示出分布情况。

    Swarmplot另一个解决stripplot中点重叠的办法就是绘制swarmplot,它的本质就是用通过算法,在类别坐标轴的方向上去‘延展’绘制这些原本重合的点。 我们将纸鸢花数据集中不同种类花的petal length和petal width做swarmplot可视化。

    plt.subplot(1,2,1)

    sns.swarmplot(x='Species',y='Petal.Length',data=iris)

    plt.show()

    Boxplot箱形图,主要包含六个数据节点,将一组数据从大到小排列,分别计算出上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有异常值。 下面将纸鸢花数据集中的四个变量sepal_length, sepal_width, petal_length和petal_width做箱形图可视化。

    fig = plt.figure(1,figsize=(12,12))

    plt.show()

    ViolinplotViolinplot相当于结合了箱形图与核密度图,更好地展现出数据的量化形态。展示如下:

    plt.figure(1,figsize=(12,12))

    for i in range(4):

    plt.show()

    Violinplot用kernel density estimate去更好地描述了quantitative变量的分布。

    与此同时,也可以组合swarmplot和boxplot或violinplot去描述quantitative变量。用鸢尾花数据集展示如下:

    In [8]:

    plt.figure(1,figsize=(12,12))

    plt.title(str(var[i])+ ' in Iris species')

    plt.show()

    BarplotBarplot主要是展现在分类中的quantitative变量的平均值情况,并且用了boostrapping算法计算了估计值的置信区间和error bar.用鸢尾花数据集展示如下:

    In [9]:

    plt.show()

    Countplot如果想知道在每个类别下面有多少个观察值,用countplot就可以,相当于是做一个observation counts,用鸢尾花数据集展示如下:

    plt.show()

    PointplotPointplot相当于是对barplot做了一个横向延伸,一方面,用point estimate和confidence level去展示barplot的内容;另一方面,当每一个主类别下面有更细分的sub-category的时候,pointplot可以便于观察不同sub-category在各主类别之间的联系。展示如下:

    plt.show()

    FactorplotFactorplot可以说是seaborn做category visualization的精髓,前面讲的这些plot都可以说是factorplot的具体展示。我们可以用PariGrid去实现对多个类别的数值特征用同一种plot做可视化。

    In [12]:

    g.map(sns.violinplot,palette='pastel')

    plt.show()

    附上各plot function的API,今后将会对API中的参数结合tutorial讲讲,如何做出更好的可视化效果。更新ing

    seaborn.stripplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,

    ata 

    小结

    seaborn是一个很棒的可视化库,尤其是当数据维度很大的时候,seaborn可以让我们用最少的代码去绘制一些描述性统计的图,便于找寻各维度变量之间的特征。此篇文档也是我对seaborn的学习笔记,这次整理的内容是关于category visualization。下次将会选取其他数据集去整理关于distribution visualization的内容。

    相关推荐:

    标题
    使用R语言随机波动模型SV处理时间序列中的随机波动率   (2020-04-15 14:49)
    R语言用WinBUGS 软件对学术能力测验(SAT)建立分层模型   (2020-04-14 16:27)
    R语言使用随机技术差分进化算法优化的Nelson-Siegel-Svensson模型   (2020-04-12 18:52)
    已迁离北京外来人口的数据画像    (2020-04-11 20:55)
    R语言用神经网络改进Nelson-Siegel模型拟合收益率曲线分析   (2020-04-10 15:51)
    用R语言用Nelson Siegel和线性插值模型对债券价格和收益率建模   (2020-04-06 11:16)
    R语言LME4混合效应模型研究教师的受欢迎程度   (2020-03-27 15:18)
    R语言Black Scholes和Cox-Ross-Rubinstein期权定价模型案例   (2020-03-25 14:36)
    R语言中的Nelson-Siegel模型在汇率预测的应用   (2020-03-25 14:07)
    R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归   (2020-03-06 16:20)

    如果您有任何疑问,请在下面发表评论。 

  • 相关阅读:
    Java并发之synchronized关键字和Lock接口
    Java并发之volatile关键字
    浏览器的缓存机制
    垃圾回收技术
    import和require区别
    垃圾回收机制
    TCP四次挥手
    进程
    TCP基础概念
    TCP三次握手
  • 原文地址:https://www.cnblogs.com/tecdat/p/9518521.html
Copyright © 2020-2023  润新知