Spark之编程模型RDD

Spark之编程模型RDD

前言：Spark编程模型两个主要抽象，一个是弹性分布式数据集RDD，它是一种特殊集合，支持多种数据源，可支持并行计算，可缓存；另一个是两种共享变量，支持并行计算的广播变量和累加器。

1.RDD介绍

Spark大数据处理平台建立在RDD之上，RDD是Spark的核心概念，最主要的抽象之一。RDD和Spark之间的关系是，RDD是一种基于内存的具有容错性的集群抽象方法，Spark是这个抽象方法的实现。

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。

1.1 RDD的特征

（1）分区（Partition）：一个数据分片列表。能够将数据切分，切分好的数据能够进行并行计算，是数据集的原子组成部分。用户可以在创建RDD时指定RDD的分片个数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。

（2）函数（Compute）：一个计算RDD每个分片的函数。RDD的计算是以分片为单位的，每个RDD都会实现compute函数以达到这个目的。compute函数会对迭代器进行复合，不需要保存每次计算的结果。

（3）依赖（Dependency）：RDD的每次转换都会生成一个新的RDD，所以RDD之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时，Spark可以通过这个依赖关系重新计算丢失的分区数据，而不是对RDD的所有分区进行重新计算。

（4）优先位置（可选）：一个列表，存储存取每个Partition的优先位置（preferred location）。对于一个HDFS文件来说，这个列表保存的就是每个Partition所在的块的位置。按照“移动数据不如移动计算”的理念，Spark在进行任务调度的时候，会尽可能地将计算任务分配到其所要处理数据块的存储位置。

（5）分区策略（可选）：一个Partitioner，即RDD的分片函数，描述分区的模式和数据存放的位置。当前Spark中实现了两种类型的分片函数，一个是基于哈希的HashPartitioner，另外一个是基于范围的RangePartitioner。只有对于于key-value的RDD，才会有Partitioner，非key-value的RDD的Parititioner的值是None。Partitioner函数不但决定了RDD本身的分片数量，也决定了parent RDD Shuffle输出时的分片数量。

常见的RDD有很多种，每个Transformation操作都会产生一种RDD，一下是各种RDD特征比较。

1.2 RDD依赖
相关阅读:
[译]Vulkan教程(03)开发环境
 [译]Vulkan教程(02)概况
 [译]Vulkan教程(01)入门
 CSharpGL(57)[译]Vulkan清空屏幕
 CSharpGL(56)[译]Vulkan入门
 CSharpGL(55)我是这样理解PBR的
 CSharpGL(54)用基于图像的光照(IBL)来计算PBR的Specular部分
 [译]背景：着色的物理和数学(4)
[译]背景：着色的物理和数学(3)
[译]背景：着色的物理和数学(2)
原文地址：https://www.cnblogs.com/schoolbag/p/9645423.html

Spark之编程模型RDD

1.RDD介绍

1.1 RDD的特征

1.2 RDD依赖