• RDD基础-笔记


    RDD编程

    基础Spark中的RDD是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。RDD可以包含Python、java、Scala中任意类型的对象,甚至可以包含用户自定义的对象。两种方法创建RDD:
    1. 读取一个外部数据集
    2. 在驱动器程序里分发驱动器程序中的对象集合(比如list和set)。

    RDD 支持的操作:
    1. 转化操作(transformation):一个RDD生成一个新的RDD。
    2. 行动操作(action):会对RDD计算出一个结果,并把结果返回到驱动器程序中,或把结果存储到外部。
    3. 虽可以在任何时候定义新的RDD,但Spark只会惰性计算这些RDD。他们只有第一次在一个行动操作中用到时,才会真正计算。
    4. 默认情况下,Spark的RDD会在你每次对他们进行行动操作时重新计算。(在任何时候都能进行重算是我们为什么把RDD描述为“弹性的原因”)如果想在多个行动操作中重用同一个RDD,可以使用RDD.persist()让Spark把这个RDD缓存下来。

    每个Spark程序或shell会话都按如下方式工作。
    1. 从外部数据创建出输入RDD。
    2. 使用诸如filter()这样的转化操作对RDD进行转化,以定义新的RDD。
    3. 告诉Spark对需要被重用的中间结果RDD执行persist()操作。
    4. 使用行动操作(例如count()和first()等)来触发一次并行计算,Spark会对计算进行优化后再执行。

    errorsRDD = inputRDD.filter(lambad x:"error" in x)
    warningsRDD = inputRDD.filter(lamdba x: "warning" in x)
    badLinesRDD = errorsRDD.union(warningRDD)

    cache()与使用默认存储级别调用persist()是一样的。
    count()返回计数结果
    take() 收集RDD中的一些元素

    file

  • 相关阅读:
    解决使用gomod后goland导包报红问题
    Golang写文件的坑
    Golang去除字符串前后空格
    Golang通过结构体解析和封装XML
    Golang获取CPU、内存、硬盘使用率
    Golang数组和切片的区别
    Golang修改操作系统时间
    Golang中GBK和UTF8编码格式互转
    Golang中的各种时间操作
    Golang十六进制字符串和byte数组互转
  • 原文地址:https://www.cnblogs.com/skywp/p/11671102.html
Copyright © 2020-2023  润新知