大数据开发实战：Spark Streaming流计算开发

大数据开发实战：Spark Streaming流计算开发
　　1、背景介绍

　　　　　　Storm以及离线数据平台的MapReduce和Hive构成了Hadoop生态对实时和离线数据处理的一套完整处理解决方案。除了此套解决方案之外，还有一种非常流行的而且完整的离线和

　　　　实时数据处理方案。这种方案就是Spark。Spark本质上是对Hadoop特别是MapReduce的补充、优化和完善，尤其是数据处理速度、易用性、迭代计算和复杂数据分析等方面。

　　　　　　Spark Streaming 作为Spark整体解决方案中实时数据处理部分，本质上仍然是基于Spark的弹性分布式数据集（Resilient Distributed Datasets ：RDD）概念。Spark Streaming将源头

　　　　数据划分为很小的批，并以类似于离线批的方式来处理这部分微批数据。

　　　　　　相对于Storm这种原生的实时处理框架，Spark Streaming基于微批的的方案带来了吞吐量的提升，但是也导致了数据处理延迟的增加---基于Spark Streaming实时数据处理方案的数据

　　　　延迟通常在秒级甚至分钟级。

　　2、Spark生态和核心概念

　　　　2.1、Spark概览

　　　　　　Spark诞生于美国伯克利大学的AMPLab,它最初属于伯克利大学的研究性项目，与2010年正式开源，于2013年成为Apache基金项目，冰雨2014年成为Apache基金的顶级项目。

　　　　　　Spark用了不到5年的时间就成了Apache的顶级项目，目前已被国内外的众多互联网公司使用，包括Amazon、EBay、淘宝、腾讯等。

　　　　　　Spark的流行和它解决了Hadoop的很多不足密不可分。

　　　　　　传统Hadoop基于MapReduce的方案适用于大多数的离线批处理场景，但是对于实时查询、迭代计算等场景非常不适合，这是有其内在局限决定的。

　　　　　　1、MapReduce只提供Map和Reduce两个操作，抽象程度低，但是复杂的计算通常需要很多操作，而且操作之间有复杂的依赖关系。

　　　　　　2、MapReduce的中间处理结果是放在HDFS文件系统中的，每次的落地和读取都消耗大量的时间和资源。

　　　　　　3、当然，MapReduce也不支持高级数据处理API、DAG（有向五环图）计算、迭代计算等。

　　　　　　Spark则较好地解决了上述这些问题。

　　　　　　1、Spark通过引入弹性分布式数据集（Resilient Distributed Datasets：RDD）以及RDD丰富的动作操作API，非常好地支持了DGA的计算和迭代计算。

　　　　　　2、Spark通过内存计算和缓存数据非常好地支持了迭代计算和DAG计算的数据共享、减少了数据读取的IO开销、大大提高了数据处理速度。

　　　　　　3、Spark为批处理（Spark Core）、流式处理（Spark Streaming）、交互分析（Spark SQL）、机器学习（MLLib）和图计算（GraphX）提供了一个同一的平台和API，非常便于使用。

　　　　　　4、Spark非常容易使用、Spark支持java、Python和Scala的API，还支持超过80种高级算法，使得用户可以快速构建不同的应用。Spark支持交互式的Python和Scala的shell，这意味着

　　　　　　　可以非常方便地在这些shell中使用Spark集群来验证解决问题的方法，而不是像以前一样，需要打包、上传集群、验证等。这对于原型开发尤其重要。

　　　　　　5、Spark可以非常方便地与其他开源产品进行融合：比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且可以处理所有Hadoop支持的数据，包括HDFS、

　　　　　　　　HBase和Cassandra等。Spark也可以不依赖于第三方的资源管理和调度器，它实现了Standalone作为其内置的资源管理和调度框架，这样进一步降低了Spark的使用门槛。

　　　　　　6、External Data Source多数据源支持：Spark可以独立运行，除了可以运行在当下的Yarn集群管理之外，它还可以读取已有的Hadoop数据。它可以运行多种数据源，比如Parquet、Hive、

　　　　　　　　HBase、HDFS等。

　　　2.2、Spark核心概念

　　　　　　　　RDD是Spark中最为核心和重要的概念。RDD，全称为 Resilient Distributed Dataset，在Spark官方文档中被称为“一个可并行操作的有容错机制的数据集合”。实际上RDD就是

　　　　　　一个数据集，而且是分布式的。同时Spark还对这个分布式数据集提供了丰富的数据操作和容错性。

　　　　　　1、RDD创建

　　　　　　　　Spark中创建RDD最直接的方法是调用SparkContext(SparkContext是Spark集群环境的访问入口，Spark Streaming也有自己对应的对象StreamContext)的parallelize方法。

　　　　　　　　List<Integer> data = Arrays.asList(1,2,3,4,5);

　　　　　　　　HavaRDD<Integer> distData = sc.parallelize(data);

　　　　　　　　上述代码会将数据集合 (data)转换为这个分布式数据集（distData）,之后就可以对此RDD执行各种转换等。比如调用distData.reduce((a,b) => a+b),将这个数组中的元素项加，

　　　　　　此外，还可以通过设置parallelize的第二个参数手动设置生成RDD的分区数：sc.parallelize(data,10),如果不设定的话，Spark会自动设定。

　　　　　　　　但在实际的项目中，RDD一般是从源头数据创建的。Spark支持从任何一个Hadoop支持的存储数据创建RDD，包括本地文件系统、HDFS、Cassandna、HBase和Amazon S3等。

　　　　　　另外，Spark也支持从文本文件，SequenceFiles和其它Hadoop InputFormat的格式文件中创建RDD。创建的方法也很简单，只需要指定源头文件并调用对应的方法即可：

　　　　　　　　JavaRDD<String> distFile = sc.textFile("data.txt");

　　　　　　　　Spark 中转换SequenceFile的SparkContext方法是sequenceFile，转换Hadoop InputFormats的SparkContext方法是HadoopRDD。

　　　　　　2、RDD操作

　　　　　　　　RDD操作分为转换(transformation)和行动(action)，transformation是根据原有的RDD创建一个新的RDD，action则吧RDD操作后的结果返回给driver。例如map 是一个转换，

　　　　　　它把数据集中的每个元素经过一个方法处理的结果返回一个新的RDD，reduce是一个action,它收集RDD的所有数据经过一些方法的处理，最后把结果返回给driver。

　　　　　　　　Spark对transformation的抽象可以大大提高性能，这是因为在Spark中，所有transformation操作都是lazy模式，即Spark不会立即计算结果，而只是简单地记住所有对数据集的

　　　　　　转换操作逻。这些转换只有遇到action操作的时候才会开始计算。这样的设计使得Spark更加高效，例如可以通过map创建一个新数据集在reduce中使用，并仅仅返回reduce的

　　　　　　结果给driver，而不是整个大大的map过的数据集。

　　　　　　3、RDD持久化

　　　　　　　　Spark最重要的一个功能是它可以通过各种操作持久化（或缓存）一个集合到内存中。当持久化一个RDD的时候，每一个节点都将参与计算的所有分区数据存储到内存中，

　　　　　　并且这些数据可以被这个集合（以及这个集合衍生的其他集合）的动作重复利用。这个能力使后续的动作速度更快（通常快10倍以上）。对应迭代算法和快速的交互应用来说，

　　　　　　缓存是一个关键的工具。

　　　　　　　　可以通过 persist()或者cache()方法持久化一个RDD。先在action中计算得到RDD,然后将其保存在每个节点的内存中。Spark的缓存是一个容错的技术，也就是说，如果RDD的

　　　　　　任何一个分区丢失，它可以通过原有的转换操作自动重复计算并且创建出这个分区。

　　　　　　　　此外，还可以利用不同的存储级别存储每一个被持久化的RDD，。例如，它允许持久化集合到磁盘上、将集合作为序列化的Java对象持久化到内存中、在节点间复制集合或存储集合

　　　　　　到Tachyon中。可以通过传递一个StorageLevel对象给persist()方式设置这些存储级别。cache()使用了默认的存储级别-----StorageLevel.MEMORY_ONLY。

　　　　　　4、Spark生态圈

　　　　　　　　Spark建立在统一抽象的RDD之上，使得它可以以基本一致的方式应对不同的大数据处理场景，包括批处理，流处理、SQL、Machine Learning以及GraphX等。这就是Spark设计的“

　　　　　　通用的编程抽象”（ Unified Programming Abstraction）,也正是Spark独特的地方。

　　　　　　　　Spark生态圈包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件，其中Spark Core提供内存计算框架、SparkStreaming提供实时处理应用、Spark SQL提供

　　　　　　即席查询，再加上MLlib的机器学习和GraphX的图处理，它们能无缝集成并提供Spark一站式的大数据解决平台和生态圈。

　　　　　　

　　　　　　Spark Core：Spark Core实现了Spark的基本功能，包括任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core还包括了RDD的API定义，并提供了创建和操作RDD的

　　　　　　　　丰富API。Spark Core是Spark其它组件的基础和根本。

　　　　　　Spark Streaming：他是Spark提供的对实时数据进行流计算的组件，提供了用来操作数据流的API，并且与Spark Core中的RDD API高度对应。Spark Streaming支持与Spark Core

　　　　　　　　同级别的容错性、吞吐量和伸缩性。

　　　　　　Spark SQL：它是Spark用来操作结构化数据的程序包，通过Spark SQL，可以使用SQL或类SQL语言来查询数据；同时Spark SQL支持多种数据源，比如Hive表、Parquet以及

　　　　　　　　JSON等，除了为Spark提供一个SQL接口，Spark SQL还支持开发者将SQL和传统的RDD编程的数据操作方式向结合，不论是使用Python、Java还是Scala，开发者都可以在

　　　　　　　　单个应用中同时使用SQL和复杂的数据分析。

　　　　　　MLLib：Spark提供了常见的机器学习功能的程序库，叫做MLlib,MLlib提供了多种机器学习算法，包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的

　　　　　　　　支持功能。此外，MLLib还提供了一些更底层的机器学习原语，包括一个通用的梯度下降优化算法，所有这些方法都被设计为可以在集群上轻松伸缩的架构。

　　　　　　GraphX：GraphX是用来操作图（如社交网络的朋友圈）的程序库，可以进行并行的图计算。与Spark Streaming和Spark SQL类似，GraphX也扩展了Spark的RDD API，

　　　　　　　　能用来创建一个顶点和边都包含任意属性的有向图。GraphX还支持针对图的各种操作（如进行图分割的subgraph和操作所有顶点的mapVertices）,以及一些常用的图算法

　　　　　　　（如PageRank和三角计算）。

　　3、Spark生态的流计算技术：Spark Streaming

　　　　　　　　Spark Streaming作为Spark的核心组件之一，通Storm一样，主要对数据进行实时的流处理，但是不同于Apache Storm（这里指的是原生Storm，非Trident），在Spark Streaming

　　　　　　中数据处理的单位是是一批而不是一条，Spark会等采集的源头数据累积到设置的间隔条件后，对数据进行统一的微批处理。这个间隔是Spark Streaming中的核心概念和关键参数，

　　　　　　直接决定了Spark Streaming作业的数据处理延迟，当然也决定着数据处理的吞吐量和性能。

　　　　　　　　相对于Storm的毫秒级延迟来说，Spark Streaming的延迟最多只能到几百毫秒，一般是秒级甚至分钟级，因此对于实时数据处理延迟要非常高的场合，Spark Streaming并不合适。

　　　　　　　　另外，Spark Streaming底层依赖于Spark Core 的RDD实现，即它和Spark框架整体是绑定在一起的，这是优点也是缺点。

　　　　　　　　对于已经采用Spark 作为大数据处理框架，同时对数据延迟性要求不是很高的场合，Spark Streaming非常适合作为事实流处理的工具和方案，原因如下：

　　　　　　　　1、Spark Streaming内部的实现和调度方式高度依赖于Spark的DAG调度器和RDD，Spark Streaming的离散流（DStream）本质上是RDD在流式数据上的抽象，因此熟悉Spark和

　　　　　　　　和RDD概念的用户非常容易理解Spark Streaming已经其DSream。

　　　　　　　　2、Spark上各个组件编程模型都是类似的，所以如果熟悉Spark的API，那么对Spark Streaming的API也非常容易上手和掌握。

　　　　　　　　但是，如果已经采用了其他诸如Hadoop和Storm的数据处理方案，那么如果使用Spark Streaming，则面临着Spark以及Spark Streaming的概念及原理的学习成本。

　　　　　　　　总体来说，Spark Streaming作为Spark核心API的一个扩展，它对实时流式数据的处理具有可扩展性、高吞吐量、和可以容错性等特点。

　　　　　　　　同其他流处理框架一样，Spark Streaming从Kafka、Flume、Twitter、ZeroMQ、Kinesis等源头获取数据，并map、reduce、join、window等组成的复杂算法计算出期望的结果，处理

　　　　　　后的结果数据可被推送到文件系统，数据库、实时仪表盘中，当然，也可以将处理后的数据应用到Spark的机器学习算法、图处理算法中。整个的数据处理流程如下：

　　　　　　

　　　　3.1、Spark Streaming基本原理

　　　　　　Spark Streaming 中基本的抽象是离散流（即DStream）.DStream代表一个连续的数据流。在Spark Streaming内部中，DStream实际上是由一系列连续RDD组成。每个RDD包含确定

　　　　时间间隔内的数据，这些离散的RDD连在一起，共同组成了对应的DStream。

　　　　

　　　　　　实际上任何，任何对DStream的操作都转换成了对DStream隐含的一系列对应RDD的操作，如上图中对lines DStream是的flatMap操作，实际上应用于lines对应每个RDD的操作，并生成了

　　　　对应的work DStream的RDD。

　　　　　　也就是上面所说的，Spark Streaming底层依赖于Spark Core的RDD实现。从本质上来说，Spark Streaming只不过是将流式的数据流根据设定的间隔分成了一系列的RDD，然后在每个RDD上

　　　　应用相应的各种操作和协作，所以Spark Streaming底层的运行引擎实际上是Spark Core。

　　　3.2、Spark Streaming核心API

　　　　　　SparkStreaming完整的API包括StreamingContext、DStream输入、DStream上的各种操作和动作、DStream输出等。

　　　　　　1、StreamingContext

　　　　　　　　为了初始化Spark Streaming程序，必须创建一个StreamingContext对象，该对象是Spark Streaming所有流操作的主要入口。一个StreamingContext对象可以用SparkConf对象创建：

　　　　　　　　import org.apache.spark.*;

　　　　　　　　import org.apache.spark.streaming.api.Java.*;

　　　　　　　　SparkConf conf = new SparkConf().setAppName(appName).setMaster(master);

　　　　　　　　JavaStreamingContext ssc = new JavaStreamingContext(conf, new Duration(1000));

　　　　　　2、DStream输入

　　　　　　　　DStream输入表示从数据源获取的原始数据流。每个输入流DStream和一个接收器(receiver)对象相关联，这个Receiver从源中获取数据，并将数据存入内存中用于处理。

　　　　　　　　Spark Streaming有两类数据源：

　　　　　　　　基本源(basic source)：在StreamingContext API中直接可用的源头，例如文件系统、套接字连接、Akka的actor等。

　　　　　　　　高级源(advanced source)：包括 Kafka、Flume、Kinesis、Tiwtter等，他们需要通过额外的类来使用。

　　　　　　3、DStream的转换

　　　　　　　　和RDD类似，transformation用来对输入DStreams的数据进行转换、修改等各种操作，当然，DStream也支持很多在Spark RDD的transformation算子。

　　　　　　　　

　　　　　　4、DStream的输出

　　　　　　　　和RDD类似，Spark Streaming允许将DStream转换后的结果发送到数据库、文件系统等外部系统中。目前，定义了Spark Streaming的输出操作：

　　　　　　　　

　　4、Spark Streaming实时开发实例

　　　　　　下面用字符计数这个例子来说明 Spark Streming

　　　　　　首先，导入 Spark Streaming的相关类到环境中，这些类（如DStream）提供了流操作很多有用的方法，StreamingContext是Spark所有流操作的主要入口。

　　　　　　其次，创建一个具有两个执行线程以及1秒批间隔时间（即以秒为单位分隔数据流）的本地StreamingContext.

　　　　　　
```
import org.apache.spark.{*, SparkConf}
import org.apache.spark.api.java.function.*
import org.apache.spark.streaming.{*, Duration, Durations}
import org.apache.spark.streaming.api.java.{*, JavaDStream, JavaStreamingContext}

import scala.Tuple2;

object streaming_test {
  def main(args: Array[String]): Unit = {
    //创建一个本地的StreamingContext上下文对象，该对象包含两个工作线程，批处理间隔为1秒
    val conf  = new SparkConf().setMaster("local[2]").setAppName("Network-WordCount");

    val jssc = new JavaStreamingContext(conf,Durations.seconds(1));
    //利用这个上下文，能够创建一个DStream,它表示从TCP源（主机为localhost,端口为9999）获取的流式数据
    //创建一个连接到hostname:port的DStream对象，类似localhost:9999
    val lines =jssc.socketTextStream("localhost",9999);
    //这个lines变量是一个DStream,表示即将从数据服务器或的数据流，这个DStream的每条记录都代表一行文本，
    // 接下来需要将DStream中的每行文本都切分为单词
    val words =lines.flatMap(x:String => util.Arrays.asList(x.split(" ")).iterator());
    val pairs =words.mapToPair<s=>new Tuple2<>(s,1));
    val wordCounts =pairs.reduceByKey((i1,i2)=> i1+i2);
    wordCounts.print();
  }
}
```
　　4、Spark Streaming调优实践

　　　　Spark Streaming作业的调优通常都涉及作业开发的优化、并行度的优化和批大小以及内存等资源的优化。

　　　　1、作业开发优化

　　　　　　RDD复用：对于实时作业，尤其是链路较长的作业，要尽量重复使用RDD，而不是重复创建多个RDD。另外需要多次使用的中间RDD，可以将其持久化，以降低每次都需要重复计算的开销。

　　　　　　使用效率较高的shuffle算子：如同Hadoop中的作业一样，实时作业的shuffle操作会涉及数据重新分布，因此会耗费大量的内存、网络和计算等资源，需要尽量降低需要shuffle的数据量，

　　　　　　reduceByKey/aggregateByKey相比groupByKey,会在map端先进行预聚合，因此效率较高。

　　　　　　类似于Hive的MapJoin：对于实时作业，join也会涉及数据的重新分布，因此如果是大数据量的RDD和小数据量的RDD进行join，可以通过broadcast与map操作实现类似于Hive的MapJoin，

　　　　　　但是需要注意小数量的RDD不能过大，不然广播数据的开销也很大。

　　　　　　其它高效的例子：如使用mapPartitions替代普通map,使用foreachPartitions替代foreach，使用repartitionAndSortWithinPartitions替代repartition与 sort类操作等。

　　　　2、并行度和批大小

　　　　　　对于Spark Streaming这种基于微批处理和实时处理框架来说，其调优不外乎两点：

　　　　　　一是尽量缩短每一批次的处理时间

　　　　　　二是设置合适的batch size(即每批处理的数据量)，使得数据处理的速度能够适配数据流入的速度。

　　　　　　第一点通常以设置源头、处理、输出的并发度来实现。

　　　　　　源头并发：如果源头的输入任务是实时作业的瓶颈，那么可以通过加大源头的并发度提供性能，来保证数据能够流入后续的处理链路。在Spark Streaming，可以通过如下代码来实现（

　　　　　　一Kafka源头为例）：

　　　　　　int numStreams = 5;

　　　　　　List<JavaPairDStream<String,String>> kafkaStreams = new ArrayList<JavaPairDStream<String,String>>(numStreams );

　　　　　　for(int i=0;i<numStreams ;i++){

　　　　　　　　kafkaStreams.add(KafkaUtils.createStream(...))；

　　　　　　}

　　　　　　JavaPairDStream<String,String> unifiedStream = streamingContext.union( kafkaStreams.get(0), kafkaStreams.subList(1, kafkaStreams.size()));

　　　　　　处理并发：处理任务的并发决定了实际作业执行的物理视图。Spark Streaming作业的默认并发度可以通过spark.default.parllelism来设置，但是实际中不推荐，建议针对每个任务单独设置

　　　　　　并发度进行精细控制。

　　　　　　输出并发：如图Hadoop作业一样，实时作业的shuffle操作会涉及数据重新分布，因此会耗费大量的内存、网络和计算等资源，因此需要尽量减少shuffle操作。

　　　　　　batch size：batch size主要影响系统的吞吐量和延迟。batch size 太小，一般处理延迟会降低，但是系统吞吐量会下降；batch size太大，吞吐量上去了，但是处理延迟会提高，同时要求的

　　　　　　内存也会增加，因此实际中需要找到一个平衡点，既能满足吞吐量也能满足延迟的要求，那么实际中如何设置batch大小呢？

　　　　参考资料：《离线和实时大数据开发实战》
相关阅读:
SiteMesh在项目中的配置
 javascript深入理解js闭包
 小tip: 使用CSS将图片转换成黑白(灰色、置灰)
java程序员最不愿意看到的十件事
 Spring AOP AspectJ
2万字Java并发编程面试题整理（含答案，建议收藏）
85道Java微服务面试题整理（助力2020面试）
10个很多人不知道的Redis使用技巧
 2020年大厂Java面试题（基础+框架+系统架构+分布式+实战）
2020年薪30W的Java程序员都要求熟悉JVM与性能调优！
原文地址：https://www.cnblogs.com/shaosks/p/9577097.html

大数据开发实战：Spark Streaming流计算开发

1、背景介绍

2、Spark生态和核心概念

2.1、Spark概览

2.2、Spark核心概念

3、Spark生态的流计算技术：Spark Streaming

3.1、Spark Streaming基本原理

3.2、Spark Streaming核心API

4、Spark Streaming实时开发实例

4、Spark Streaming调优实践

　　1、背景介绍

　　2、Spark生态和核心概念

　　　　2.1、Spark概览

　　　2.2、Spark核心概念

　　3、Spark生态的流计算技术：Spark Streaming

　　　　3.1、Spark Streaming基本原理

　　　3.2、Spark Streaming核心API

　　4、Spark Streaming实时开发实例

　　4、Spark Streaming调优实践