RDD缓存

RDD缓存
RDD的缓存

Spark速度非常快的原因之一，就是在不同操作中可以在内存中持久化或缓存数据集。当持久化某个RDD后，每一个节点都将把计算的分片结果保存在内存中，并在对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。RDD相关的持久化和缓存是Spark最重要的特征之一。可以说，缓存是Spark构建迭代式算法和快速交互式查询的关键。

RDD缓存方式

RDD通过persist方法或cache方法可以将前面的计算结果缓存，但是并不是这两个方法被调用时立即缓存，而是触发后面的Action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。
```
/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */
def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)

/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */
def cache(): this.type = persist()
```
通过查看源码发现cache最终也是调用了persist方法，默认的存储级别是缓存在内存中，Spark的存储级别还有好多种，存储级别在object StorageLevel中定义的。
```
object StorageLevel {
val NONE = new StorageLevel(false, false, false, false)
val DISK_ONLY = new StorageLevel(true, false, false, false)
val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2)
val MEMORY_ONLY = new StorageLevel(false, true, false, true)
val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)
val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)
val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)
val MEMORY_AND_DISK = new StorageLevel(true, true, false, true)
val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)
val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)
val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2)
val OFF_HEAP = new StorageLevel(false, false, true, false)
```
　　
```
class StorageLevel private(
private var _useDisk: Boolean,
private var _useMemory: Boolean,
private var _useOffHeap: Boolean,
private var _deserialized: Boolean,
private var _replication: Int = 1)
```
_useDisk: 是否使用硬盘
_useMemory: 是否使用内存
_useOffHeap: 内存不够存储是否使用硬盘
_deserialized: 是否反序列化
_replication: 存储副本，默认一个

缓存有可能丢失或者存储在内存中的数据由于内存不足而被删除，RDD的缓存容错机制保证了即使缓存丢失也能保证计算的正确执行。通过基于RDD的一系列转换，丢失的数据会被重新计算，由于RDD的各个Partition是相对独立的，因此只需要计算丢失的部分即可，并不需要重新计算全部Partition。
相关阅读:
Please provide compiled classes of your project with sonar.java.binaries property
全链路压测
 零宽度短网址生成器
 http://www.easytest.xyz/login_action/
进程间的五种通信方式介绍
 InteiiJ IDEA中如何制定制定哪一个配置文件
 常见的各种排序算法汇总
 编程面试之前你应该知晓的八大数据结构
 rest-assured-doc接口自动化测试，数据驱动测试平台
 Jenkins 邮件配置 || Jenkins 发送邮件失败，提示：Error sending to the following VALID addresses
原文地址：https://www.cnblogs.com/heml/p/6770060.html

RDD的缓存

RDD缓存方式