一、RDD是什么
RDD,全称为 Resilient Distributed Datasets,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。
RDD是只读的、分区记录的集合。RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。这些确定性操作称之为转换,如map、filter、groupBy、join(转换不是程开发人员在RDD上执行的操作)
RDD 还提供了诸如 join、groupBy、reduceByKey 等更为方便的操作(注意,reduceByKey 是 action,而非 transformation),以支持常见的数据运算。
二、RDD性质
一个RDD是一个不可变化的分布式集合对象
Spark中所有的计算都是通过RDDs的创建、转换、操作完成的
一个RDD内部有许多的partitions(分片)组成的
三、partitions(分片)
每个分片包括一部分数据,partitions可在集群不同节点上计算
分片是Spark并行处理的单元,Spark顺序的,并行的处理分片
四、RDD的创建方法
1、把一个存在的集合传给SparkContext的parallelize()方法,一般是在测试的时候用
val rdd = sc.parallelize(Array(1,2,4,5),4)
参数 1: 待并行处理的数据集合; 参数 2: 分区个数。 代码如下:
2、加载外部数据集
val rddText = sc.textFile(文件路径)
五、Transformation(转换)
从之前的RDD构建一个新的RDD,像map() 和 filter()
1、逐元素Transformation
* map():
map()接收函数,把函数应用到RDD的每一个元素,返回新的RDD
scala> val lines = sc.parallelize(Array("hello","spark","hello","world","!")) lines: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[11] at parallelize at <console>:24 scala> lines.foreach(print) helloworld!sparkhello scala> lines.foreach(println) hello hello ! world spark scala> val lines2 = lines.map(word => (word, 1)) lines2: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[12] at map at <console>:25 scala> lines2.foreach(println) (hello,1) (world,1) (hello,1) (!,1) (spark,1)
* filter():
filter()接收函数,返回只包含满足filter()函数的元素的新RDD
scala> val lines3 = lines.filter(word => word.contains("hello")) lines3: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[13] at filter at <console>:25 scala> lines3.foreach(println) hello hello
* flatMap():
对每个输入元素,输出多个输出元素
flat压扁的意思,将RDD中元素压扁之后返回一个新的RDD
scala> val inputs = sc.textFile("/Users/hunter/LYH/word.text") scala> val lines = inputs.flatMap(line=>line.split(" ")) lines: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[16] at flatMap at <console>:25 scala> lines.foreach(println)