Spark核心——RDD

Spark核心——RDD

Spark中最核心的概念为RDD（Resilient Distributed DataSets）中文为：弹性分布式数据集，RDD为对分布式内存对象的抽象它表示一个被分区不可变且能并行操作的数据集；RDD为可序列化的、可缓存到内存对RDD进行操作过后还可以存到内存中，下次操作直接把内存中RDD作为输入，避免了Hadoop MapReduce的大IO操作；

RDD生成

　　Spark所要处理的任何数据都是存储在RDD之中，目前两种方式可以生成一个RDD：
　　1、从RDD进行转换操作
　　2、使用外部存储系统创建，如：HDFS；

RDD操作

　　RDD支持两种操作：
　　　　转换（transformation operation）
　　　　转换操作将一个RDD经过操作后返回一个全新的RDD，转换操是lazy（惰性）的这期间不会产生任何数据的计算；
　　　　转换函数有：distinct、filter、map、flatMap、union、groupByKey等；
　　　　行动（action operation）
　　　　每一个行动操作都会触发Spark Job进行计算并返回最终的结果，行动操作有这么几类：返回标量，count返回元素的个数；返回Scala集合，task(n)返回0到n-1组成的集合；写入外部存储，saveAsHadoopFile(path)存储到HDFS；
　　　　行动函数有：count、top、task、saveAsHadoopFile等；
　　RDD为不可变的数据集，可以使用转换操作“修改”一个RDD，但这操作过后返回的是一个全新的RDD 原本RDD并没有改变；

　　　　　　　　　　RDD状态转换图

Lineage

　　Spark RDD只支持粗粒度的操作，对一个RDD的操作都会被作用于该RDD的所有数据；为了保证RDD的高可用性RDD通过使用Lineage（血统）记录了RDD演变流程（从其他RDD到当前RDD所做的操作）当RDD分区数据丢失时可以通过Lineage的信息重新计算与恢复分区数据，或进行RDD的重建；
　　RDD的依赖关系（dependencies）：
　　由于对RDD的操作都是粗粒度的一个转换操作过后都会产生一个新的RDD，RDD之间会形成一个前后依赖关系；Spark中存在两种依赖：窄依赖（Narrow Dependencies）、宽依赖（Wide Dependencies）；
　　窄依赖（Narrow Dependencies）：一个父RDD的分区只能被一个子RDD的一个分区使用；
　　宽依赖（Wide Dependencies）：多个子RDD的分区依赖于一个父RDD的同一个分区；
　　窄依赖的节点（RDD）关系如果流水一般，所以当节点失败后只需重新计算父节点的分区即可，宽依赖需要重新计算父节点的多个分区代价是非常昂贵的；

　　　　　　　　　　窄依赖Narrow

　　　　　　　　　　宽依赖Wide

参考资料：
http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf
http://spark.apache.org/docs/latest/programming-guide.html

文章首发地址：Solinx
http://www.solinx.co/archives/548
相关阅读:
Python中的try...except...finally
JavaScript 实现双向队列并用此来测试一个单词是否为回文
 js 触发 change 事件
 MySQL8 重置改root密码及开放远程访问
 根据数组下标在MongoDB中修改数组元素
 pymongo CursorNotFound错误
 mongodb根据子项中的指标查找最小或最大值
 正则文本过滤时的一些注意事项
 github page更新后不生效
 Xpath同时选取不同属性的元素
原文地址：https://www.cnblogs.com/softlin/p/5116835.html

Spark核心——RDD

RDD生成

RDD操作

Lineage