• ggplot2使用初探


    ggplot2已经成为了R语言中数据可视化的同义词, 这是一个强大的工具, 可以帮助我们制作优良的图表, 创造出令人吃惊的图片, 下面我们一起学习(本博文参考了知乎问题如何使用 ggplot2中黄宝臣的回答(), 并在此基础上补充了一些细节和自己的理解).

    ggplot2函数里面为属性赋值的时候需要使用的参数名:

    1. 图形属性(aes): 表示几何对象的属性: 横坐标, 点的大小, 颜色, 填充色等; 比如一个点的属性有它的横纵坐标, 它的大小, 颜色等等.
    2. 不同的几何对象(geom_,  geometry的简称): 主要用来指定数据显示的形式: 点, 线, 或者条形; 如: geom_point(color='darkred')表示数据要用点进行显示, 颜色为黑红色.
    3. 统计变换(stat_,  statistics的简称): 比如求一些基本的数据属性, 如均值, 方差等, 算出来以后进行展示.

    入门实例1: 基本图形的绘制

    1 x <- rnorm(100,14,5)
    2 y <- x + rnorm(100,0,1)
    3 
    4 ggplot(data = NULL, mapping = aes(x = x, y = y)) + # data=NULL
    5   geom_point(color = 'darkred') + 
    6   annotate('text',x=13,y=20,parse = T,
    7            label = 'x[1]==x[2]')

    ggplot(data = NULL, mapping = aes(x=x, y=y)) 生成的结果(默认数据集为NULL, 创建的图形对象在加上图层之前无法显示, 因此什么都看不到):

    语法: ggplot(data = NULL, mapping = aes(), ... , environment = parent.frame()) 该函数主要有两个参数: 数据(指定绘图所用的默认数据集, 必须是数据框)和图形属性映射(在aes()里面). 这两个参数将被设为绘图的默认参数. 只有在新加的图层里面设定了新的参数, 默认值才会被修改. (注意, 即使函数里面的输入参数你不写清楚参数名, 也可以通过相对位置来确定, 但是为了可读性以及避免由于相对位置记错而引发错误, 建议还是都写上参数名)

    再看看ggplot(data = NULL, mapping = aes(x=x, y=y)) + geo_point(color = 'darkred')生成的图像(+号用来添加图层, 该数据集使用了ggplot里面的默认数据集和图形属性映射, 而且使用了另外两个可选参数的默认值: 统计变换(stat="identity")/位置调整(position="identity")): 这里图层被添加到了ggplot()创建的图形对象上了

    语法: geom_point(mapping=NULL, data=NULL, stat="identity",position="identity", ..., na.rm=FALSE, show.legend=NA, inherit.aes=TRUE)

    这里参数mapping在前, data在后, 和ggplot正好相反, 这是因为我们再图形对象中一般先设定数据集, 而在图层函数中大多是设定图形属性而不是数据集.

    最后是整个上面的语句生成的图形:

     

    summary函数:

    summary函数可以帮助我们查看图形对象的结构, 考虑R里面的diamonds数据集(53940 x 10): 

    > p <- ggplot(data = diamonds, mapping = aes(x = carat, y = price, colour = cut))
    > summary(p)
    data: carat, cut, color, clarity, depth, table, price, x, y, z [53940x10]  # 首先给出图形对象的默认设置
    mapping:  x = carat, y = price, colour = cut                               # 图形对象的默认设置
    faceting: facet_null() 

     

    几何对象描述了应该用何种对象来对数据进行展示, 有些对象关联了相应的统计变换. 

    • geom_point(): 用来绘制散点图;
    • geom_smooth(): 用来拟合一条平滑的曲线, 并将曲线和标准差展示在图中;
    • geom_boxplot(): 可以用来绘制箱线胡须图.
    • geom_line(), geom_path(): 都是绘制连线, 将数据点连接起来, line图只能从做到右绘制, path图则可以是任意方向;
    • geom_polygon(): 画点围成的多边形
    • ......
    library("ggplot2")
    x <- rnorm(100,14,5)
    y <- x + rnorm(100,0,1)
    
    ggplot(data = NULL, aes(x = x, y = y)) + 
      geom_point() + geom_smooth()

    ggplot(data = NULL, aes(x = x, y = y)) + 
      geom_point() + geom_line()

    ggplot(data = NULL, aes(x = x, y = y)) + 
      geom_point() + geom_path()

     入门实例2: 基本图形的绘制

    library("ggplot2")
    x <- c(rnorm(50,14,5), rep(20,20)) # 生成50个均值为14,标准差为5的随机数+20个值为20的数
    y <- c(rnorm(50,14,5) + rnorm(50,0,1), rep(20,20))
    # 绘图语句
    ggplot(data = NULL, aes(x = x, y = y)) + # Begin draw
      geom_point(color = 'darkred') 

          绘图语句里面用到了geom_point, 但是没有用到stat_(统计绘图)方面的函数, 看官方文档里面geom_point的用法可以发现, 它提供了一个"stat"的选项, 默认为: stat = "identity",这个表示不对数据进行任何统计变换, 但是如果我将这个参数设置为其他的呢? 即我们要对数据进行统计变换, 那么统计变换的效果又是什么样的呢? 我们先看看x,y变量里面都存放了什么东西!

    > x  # x,y这两个变量里面的前50个数都是随机数, 但是后面20个数都是20, 也就是说, (x,y)有20个(20,20)重复的坐标
     [1] 15.185802 13.288382 14.049740 11.887190 10.271295 11.798415  9.114219 19.091152
     [9] 14.288480 19.660104  9.365842 24.286993 14.529903 21.785067  4.267601 12.585770
    [17]  2.515565 10.978805  6.707766 17.032989 15.148695  7.662401 15.532458  9.102369
    [25] 16.692523 16.959872 11.790089  8.236425 13.349470 16.593251 15.169231 13.024083
    [33] 16.171105 10.150380 22.579654 15.101349  1.145253  8.670352 24.728247 18.523736
    [41] 12.200371  4.155781  8.475500 10.048165 15.373836 26.380227 25.330350  7.801644
    [49] 23.343966 14.910023 20.000000 20.000000 20.000000 20.000000 20.000000 20.000000
    [57] 20.000000 20.000000 20.000000 20.000000 20.000000 20.000000 20.000000 20.000000
    [65] 20.000000 20.000000 20.000000 20.000000 20.000000 20.000000

    坐标既然有重复, 那么绘图的时候就只显示一个点呗, 实际上, 默认上是这样显示的, 但是, 如果我们进行了统计变换, 得到的图将会是这样的: 我们竟然看到绘制的图坐标(20,20)的地方竟然是个圆球, 这个圆球代表了此坐标点出现的次数.

    ggplot(data = NULL, aes(x = x, y = y)) + # Begin draw
      geom_point(color = 'darkred', stat = "sum")   # stat = "sum"

          这说明了一个什么问题? 这说明了geom_point这样的函数里面也是带有stat_(统计)功能的. 因此geom_和stat_其实是一回事. 但是其实stat_里面提供了一个stat_sum这个函数, 既然geom_point里面带有了stat, 那么stat_sum这个函数还有用吗? 请看下面的代码, 这个代码生成的图和上图是一模一样的.

    ggplot(data = NULL, aes(x = x, y = y)) + # Begin draw
      stat_sum(color = "darkred", geom = "point")

    从上面我们可以归纳出ggplot2的特点2: 不要认为geom_和stat_是两种绘图方法, 他们其实是相互融合的好基友.

    参考:

    [1] http://docs.ggplot2.org/current/ (官方ggplot2 2.1.0 Help topics)

  • 相关阅读:
    大数据运维(40)ElasticSearch安装ik中文分词器
    大数据运维(39)Kylin 3.1.0集群部署
    大数据运维(38)Flink 1.11.1部署安装
    项目实战 从 0 到 1 学习之Flink(28)Flink 1.11 新特性:流批一体的 Hive 数仓
    项目实战从0到1之hive(29)企业级数据仓库构建(十):搭建 ADS 层
    项目实战从0到1之hive(28)数仓项目(九)数仓搭建-DWT 层
    项目实战从0到1之hive(27)数仓项目(九)数仓搭建
    项目实战从0到1之hive(26)企业级数据仓库构建(八):搭建DWD 层-业务数据
    项目实战从0到1之hive(25)企业级数据仓库构建(七):搭建DWD 层
    项目实战从0到1之hive(24)企业级数据仓库构建(六):数仓理论及数仓搭建
  • 原文地址:https://www.cnblogs.com/zhao441354231/p/5954697.html
Copyright © 2020-2023  润新知