由于Spark 的计算本质是基于内存的,所以Spark的性能城西的性能可能因为集群中的任何因素出现瓶颈:CPU、网络带宽、或者是内存。如果内存能够容得下所有的数据,那么网络传输和通信就会导致性能出现频惊。但是如果内存比较紧张,不足以放下所有的数据(比如在针对10亿以上的数据量进行计算时),还是需要对内存的使用进行性能优化的,比如说使用一些手段来减少内存的消耗。
Spark性能优化,其实主要就是在于对内存的使用调优。因为通常情况下来说,如果你的Spark应用程序计算的数量比较小,并且你的内存足够使用,那么只要运维可以保障网络通畅,一般是不会有大量的性能问题的。但是Spark应用程序的性能问题往往出现在针对大数据量(比如10级别的)进行计算时出现。因此通常来说,Saprk性能优化,主要时对内存进行性能优化。当然,除了内存调优之外,还有很多手段可以优化Spark应用程序的性能。
Spark性能优化技术
1.使用高性能序列化库
2.优化数据结构
3.对多次使用的RDD进行持久化/checkpoint
4.使用序列化的持久化级别
5.Java虚拟机垃圾回收调优
6.提高并行度
7.广播共享数据
8.数据本地化
9.reduceByKey和groupByKey的合理使用
10.Shuffle调优(核心中的核心,重中之重)
诊断内存的消耗
内存都花费在哪里了?
1.每个Java对象,都有一个对象头,会占用16个字节,主要包含了一些对象的元信息,比如只想他的类的指针。如果一个对象本身很小,比如就包含了一个 int 类型的field,那么它的对象头实际上比对象自己还要大。
2.Java的string对象,会比它内部的原始数据,要多出40个字节。因为它内部使用char数组来保存内部的字符序列的,并且还得保存诸如数组长度之类的信息。而且因为String 使用的时 UTF-16编码,所以每个字符都会占用2个字节,比如,包含10个字符的String ,会占用60个字节。
3.Java中的集合类型,比如HashMap 和LinkedList,内部使用的是链表数据结构,所以对链表中的每一个数据,都是用了Entry对象来包装。Entry对象不光有对象头,还有指向下一个Entry 的指针,通常占用8个字节。
4.元素类型为原始数据类型(比如int)的集合,内部通常会使用原始数据类型的包装类型,比如 Integer来存储元素。
如何判断你的程序消耗了多少内存?
这里有一个非常简单的办法来判断,你的spark程序消耗了多少内存。
1.首先,自己设置的RDD的并行度,有两种方式:要不然,在parallelize()、testFile()等方法中,传入第二个参数,设置RDD的task / partition 的数量;要不然,用 SparkConf.set() 方法,设置一个参数,spark.default.parallelism,可以统一设置这个 application 所有RDD 的partition 数量。
2.其次,在程序中将RDD cache 到内存中,调用RDD.cache() 方法即可。
3.最后,观察 Driver 的log,你会发现类似于:“INFO BlockManagerMasterActor:Added rdd_0_1 in memory on mbk.local:50311(size:717.5KB, free: 332.3MB)”的日志信息。这就显示了每个 partition 占用了多少内存
4.将这个内存信息乘以partition 数量,即可得出RDD 的内存占用量。
数据序列化概述
在很合分布式系统中,序列化都是扮演着一个重要角色的。在分布式系统中数据肯定要进行序列化,要么是把数据序列化后写入到内存,要么把数据序列化后写入到磁盘,要么把数据序列化后通过网络进行传输。如果使用的序列化技术,在执行序列化的时候很慢,或者是西兰花后的数据还是很大,消耗内存,那么会让分布式应用程序的性能下降很多。所以进行Spark 性能优化的第一步,就是进行序列化的性能优化。
优化数据结构
要减少内存的消耗,除了使用高效的序列化类库以外,还有一个很重要的事情,就是优化数据结构。从而避免Java语法特性中多导致的额外内存的开销,比如基于指针的Java数据结构,以及包装类型。
有一个关键的问题,就是优化什么数据结构?其实主要就是优化你的算子函数,内部使用到的局部数据,或者是算子函数外部的数据。都可以进行数据结构的优化。优化之后,都会减少其对内存的消耗和占用。
1.优先使用数组和字符串,而不是集合类。也就是说,优先用 array,而不是ArrayList、LinkedList、HashMap等集合。
比如,有个List<Integer> list = new ArrayList<Integer>(),将其替换为 int[] arr = new int[]。这样的话,array既比List 少了额外信息的存储开销,还能使用原始数据类型(int)来存储数据,比List中庸Integer这种包装类型存储数据,要节省内存的多。
还比如,通常企业级应用中的做法是,对于HashMap、List这种数据,统一用String 拼接成特殊格式的字符串,比如Map<Integer,Person> persons = new HashMap<Integer,Person>()。可以优化为,特殊字符串格式:id:name,address|id:name,address ...。
2.避免使用多层嵌套的对象结构。比如说,public class Teacher{private List<Student> students = new ArrayList<Student>()}。就是非常不好的例子。因为Teacher类的内部有嵌套了大量的小Student对象。
比如说,对于上述例子,也完全可以使用特殊的字符串来进行数据的存储。比如,用json字符串来存储数据,就是一个很好的选择。
{"teacher":1,"teacherName":"leo",student:[{"studentId":1,"studentName":"tom"}]}
3.对于有些能够避免的场景,尽量使用int替代String,因为String虽然比ArrayList、HashMap等数据结构搞笑多了,占用内存量少了,但是之前分析过,还是有额外的信息的消耗。比如之前用String表示id,那么现在完全可以使用数字类型的int,来进行替代。
这里提醒,在spark应用中,id就不要用常用的uuid了,因为无法转成int,就用自增的int类型的id即可。
对多次使用的RDD进行持久化或Checkpoint
如果程序中,对于某个RDD,基于它进行了多次 transformation或者action 操作。那么就非常有必要对其进行持久化操作,以避免对一个RDD反复进行计算。
此外,如果要保证在RDD的持久化数据可能丢失的情况下,还要保证高性能,那么可以对RDD进行Checkpoint操作。
Java虚拟机垃圾回收调优
java虚拟机垃圾回收调优的背景
如果在持久化RDD的时候,持久化了大量的数据,那么Java虚拟机的垃圾回收就可能曾为一个性能瓶颈。因为Java虚拟机会定期进行垃圾回收,此时就会去追钟所有的Java对象,并且在垃圾回收时,找到那些已经不再使用的对象,然后清理旧的对象,来给新的对象腾出内存空间。
垃圾回收的性能开销,是跟内存中的对象的数量,成正比的。所以,对于垃圾回收的性能问题,首先要做的是,使用更高效的数据结构,比如array和String;其次就是在持久化 rdd 时,使用序列化的持久化级别,而且用Kryo 序列化类库,这样,每个partitIon 就只是一个对象——一个字节数组。
GC对spark性能影响的原理
垃圾回收器(Garbage Collector),简称为GC。主要工作,寻找哪些对象已经不再使用了,然后就去清理掉这些对象。
GC对性能的影响,就在于,如果内存中数据量比较大的话,那么可能会很频繁的就造成内存空间爆满,不够用了,此时就会造成 GC 频繁发生,那么本身GC就是有性能消耗的,而且还频繁发生,那么对于性能当然有影响了。
此外,如果数据量过大的话,那么每次GC的时候,要回收的数据量,是不是也特别的大,那么会导致GC的速度比较慢。
除此之外,GC发生的时候,GC是一条线程,那么比如说,我们的 task 运行的线程叫做工作线程。GC运行的时候,GC线程会让工作线程直接停下来,让GC线程单独运行。这样的话,是不是就直接导致我们的 task 执行的停止。那么就影响了我们的 spark 应用程序的运行速度,也就是降低了性能。
所以说,频繁发生GC,肯定是不好的!因为频繁GC,导致 task 工作线程频繁停止,那么整个 spark 应用程序的性能就会大幅度下降。
检测垃圾回收
我们对垃圾回收进行监测,包括多久进行一次垃圾回收,以及每次垃圾回收耗费的时间,只要在 spark-submit 脚本中,增加一个配置即可
-conf "spark.executor.extraJavaOptions=-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps"
但是要记住,这里虽然会打印出Java虚拟机的垃圾回收的相关信息,但是是输出到了Worker 上的日志中,而不是driver的日在日志中。
但是这种方式也只是一种,其实也完全可以通过SparkUI (4040端口)来观察每个stage的垃圾回收的情况。
优化Executor内存比例
对于垃圾回收来说,最重要的是调节RDD缓存占用的内存空间,与算子执行时创建的对象占用的内存空间的比例。默认情况下,Spark使用每个Executor 60%的内存空间来缓存RDD,要么在task 执行期创建的对象,只有40%的内存空间来存放。
在这种情况下,很有可能因为你的内存空间的不足,task创建的对象过大,那么一旦发现40%的内存空间不够用了,就会触发Java虚拟机的垃圾回收操作。因此在极端情况下,垃圾回收操作可能会频繁出发。
在上诉情况下,如果发现垃圾回收频繁发生。那么就需要对那个比例进行调优,使用conf.set("spark.storage.memoryFraction","0.5") 即可,可以将RDD缓存占用空间的比例降低,从而给更多的空间让task创建的对象使用。
因此,对于RDD持久化,完全可以使用 kyro 序列化,加上降低其executor 内存占比的方式,来减少其内存消耗。给task提供更多的内存,从而避免task的执行频繁触发垃圾回收。
高级垃圾回收调优
Java堆空间被划分成了两块块空间,一个是新生代,一个是老年代。新生代放的是短时间存活的对象,老年代放的是长时间存活的对象。年轻代又被划分了三块空间,Eden、Survivor1、Survivor2
首先,Eden区域和Survivor1区域用于存放对象。创建的对象首先放入Eden区域和Survivor1区域,如果Eden区域满了,那么就会触发一次Minor GC,进行新生代的垃圾回收。Eden和Survivor1区域存活的对象,会被移动到Survivor2区域中,移动完了之后,Eden和Survivor1中剩余的,就都是不再使用的对象,那么GC然后将他们移除内存空间。Survivor1和Survivor2的角色调换,Survivor1变成了备用。如果一个对象,在新生代,多次minor GC都没有将其清除,说明它是长时间存活的对象,那么就会将其移动到老年代中。
如果老年代的空间满了,那么就会触发full GC,进行老年代的垃圾回收操作。
问题:到目前为止,说的是正常的情况,那么非正常情况是什么?就是minor GC发生的时候,将存活的对象放入备用的Survivor区域,结果发现放满了,放不下了,这个时候就会将对象移入老年代。
所以就会出现有短时间存活的对象进入老年代,白白占用内存空间,而且老年代很可能会因此快速被短时间存活的对象给占满了,就会触发full GC操作。回收老年代对象。所以,严重问题是,如果Eden区域不够大,很可能出现,大量数据频繁进入老年代,full GC频繁发生,导致task工作线程停止影响性能。
Spark中,垃圾回收调优的目标是,只有真正长时间存活的对象,才能进入老年代,短时间存活的对象,只能待在年轻代。不能因为某个Survivor区域空间不够,在Minor GC时,就进入了老年代。从而造成短时间存活的对象,长期待在老年代中占据了空间,而且Full GC时要回收大量的短时间存活的对象,导致Full GC速度缓慢。
如果发现在task执行期间,大量Full GC发生了,那么说明,年轻代的Eden区域给的空间不够大,此时可以执行一些操作来优化垃圾回收行为:
1.包括降低 spark.storage.memoryFraction 的比例,给年轻代更多的空间来存放短时间存活的对象;
2.给Eden 区域分配更大的空间,使用 -Xmn 即可,通常建议给 Eden 区域,预计大小的4/3;
3.如果使用的是HDFS文件,那么很好估计Eden区域大小,如果每个Executor 有4个task,然后每个HDFS压缩块解压缩后大小是3倍,此外每个hdfs块的大小是64M,那么Eden区域的预计大小就是:4*3*64MB,然后呢,再通过 -XMN参数,将Eden区域大小设置为4*3*64*4/3。
总结:
其实根据经验来看,对于垃圾回收的调优,尽量的做法是,调节executor 内存的比例就可以了。以为jvm的调优是非常复杂和敏感的。除非是真的到了万不得已的地步,自己本身又对jvm相关的技术很了解,那么此时进行Eden区域的调节,调优是可以的。
一些高级的参数
-XX:SurvivorRatio=4 :如果值为4,那么就是两个Survivor跟Eden的比例是2:4,也就是说每个Survivor占据的年轻代的比例是1/6,所以你也可以尝试调大Survivor区域的大小
-XX:NewRatio=4:调节新生代和老年代的比例
提高并行度
实际上Spark集群的资源并不一定会被充分利用到,所以要尽量设置合理的并行度来充分地利用集群的资源。才能充分提高Spark应用程序的性能。
Spark会自动设置以文件作为输入源的RDD的并行度,依据其大小,比如HDFS,就会给每一个block 创建一个partition,也依据这个设置并行度。对于reduceByKey 等会发生 shuffle 的操作,就使用并行度最大的父RDD的并行度即可。
可以手动使用 textFile()parallize()等方法的第二个参数来设置并行度;也可以使用spark.default.parallelism 参数来设置统一的并行度。Spark官方的推荐是,给集群中的每个cpu core设置2~3个task
比如说,spark-submit 设置了executor数量是10个,每个executor要求分配2个core,那么application总共会有20个core,此时可以设置new SparkConf().set("Spark.default.parallelism","60")来设置合理的并发度,从而充分利用资源。
这个参数一旦设置了,就是说所有RDD的partition 都设置成60个,也就是说每个RDD的数据,会被拆分为60份。那么针对RDD的partition,一个partition会启动一个task来进行计算,所以对于所有的算子操作,都只会创建60个task,在集群中运行。
所以,假设集群中明明有10个CPU,结果你硬是要设置了5个task,那么相当于,有5个CPU core 是空闲的。其实最好的资源白白浪费了!!
其实,最好的请况是每个CPU core 都不空闲,一直不断运转着。那么这时候我们对集群上资源的使用率是最高的,也意味着我们得spark application的性能是最高的吧。
我们还不一定,如果只是设计10个task,让每个cpu core一个task吧,完全可以设置20~30个task,为什么?因为每个task执行的顺序和完成的时间可能都是不一样的。那么如果正好是10个task,可能某个task很快就完成了,那么那个CPU就又空闲下来,资源又浪费了。
所以官方是推荐我们,设置集群总CPU数量的两倍~三倍的并行度,这样的话,每个CPU core可能分配到2~3个task线程。那么集群资源就不大可能出现空闲的情况 ,会连续运转,最大的发挥出他的功效来。
广播共享变量
如果你的算子函数中,使用到了特别大的数据,那么这个时候,推荐将该数据进行广播。这样的话可就不至于将一个大数据拷贝到每一个task上面,而是给每个节点拷贝一份,然后节点上的task共享该数据。这样的话就可以减少大数据在节点上的内存消耗,并且可以减少数据到节点的网络传输消耗。
默认情况下,算子函数中使用到外部的数据,会被拷贝到每一个task中,此时如果使用到的外部数据很大的话,那么是不是会在每个节点上占用大量的内存,而且会产生大量的网络数据传输,大量的网络通信造成性能的开销。比方说,共享的数据是100M,那么这里又6个task,就会占用600M的内存。这种事情会发生在我们想仿效MapReduce的map-side join,就是说在每个task运行的时候,要去把输入的数据,每一个表进行join,那么其实是可以这样做的,在运行join之前,先把表中的数据读取出来,加载到driver上,编程比如Java中的ArrayList,然后在算子函数中使用它,进行join操作。
这种情况下就应该对使用的外部大数据进行broadcast广播,然后让其在每个节点上就一根副本,而不是每个task一份副本,大大减少了每个节点上的内存占用空间。 val broadcastConf = sc.broadcast(myConf) 这样的话就可以大大减少每个节点的内存消耗,并且可以减少网络数据传输的性能消耗。
数据本地化
数据本地话对于Spark job性能有着巨大的影响,如果数据以及要计算它的代码是在一起的,那么性能当然会非常高。但是,如果数据和计算它的代码是分开的,那么其中之一必须到另一方的机器上,通常说,移动代码到其他节点会比移动数据到代码所在的节点上去,速度要快的多,因为代码比较小。Spark也正是基于这个数据本地化的原则来构建task掉度算法的。
数据本地化,指的是,数据离计算它的代码有多近,基于数据距离代码的距离,有几种数据本地化级别:
1.PROCESS_LOCAL:数据和计算它的代码在同一个JVM进程中。
2.NODE_LOCAL:数据和计算它的代码在一个节点上,但是不在一个进程中,比如在不同的executor进程中,或者是数据在HDFS文件的block中。
3.NO_PREF:数据从哪里来,性能都是一样的。
4.RACK_LOCAL:数据和计算它的代码在一个机架上。
5.ANY:数据可能在任意地方,比如其他网络环境内,或者其他机架上。
Spark倾向于使用最好的本地化级别来调度task,但是这是不可能的。如果没有任何未出理的数据在空闲的executor上,那么Spark就会放低本地化级别。这时有两个选择:第一,等待,知道executor的CPU释放出来,那么就分配task 过去;第二,立即在任意一个executor上启动一个task。
Spark默认会等待一会儿,来期望task要处理的数据所在的节点上的executor空闲出一个CPU,从而将task分配过去,只要超过了时间,那么Spark就会将task分配到其他任意一个空闲的executor上。task会去调用RDD的 iterator() 方法,然后通过executor关联的blockManager,来尝试获取数据,首先尝试从 getLocal() 在本地找数据,如果没有找到的话,那么就用getRemote(),通过BlockTransferService,连接到有数据的BlockManager,来获取数据,或者是没有持久化过的,那么就computeOrReadCheckpoint()。如果都没有就要去其他节点上的Executor上分配节点,然后继续执行。
可以设置参数,spark.locality 系列参数,来调节Spark 等待task可以进行数据本地化的时间。spark.localwait(3000毫秒)、spark.locality.wait.node、spark.locality.wait.process、spark.locality.wait.rack。
reduceByKey和groupByKey
val counts = lineRDD.reduceByKey(_+_)
val counts = lineRDD.groupByKey().map(wordCounts=>(wordCounts._1,wordCount._2.sum))
如果能使用reduceByKey,那就用reduceByKey,因为它会在map端,先进行本地combine,可以大大减少要传输到reduce端的数据量,减少网络传输的开销
只有在reduceByKey处理不了时,才用groupByKey().map() 来替代。
Shuffle性能调优
new SparkConf().set("spark.shuffle.consolidateFiles","true") spark.shuffle.consolidateFlies: 是否开启consolidateFiles的合并,默认为false spark.reducer.maxSizeInFlight: reduce task 拉取的缓存,默认48M spark.shuffle.file.buffer: map task的写磁盘缓存,默认32K spark.shuffle.io.maxRetries: 拉取失败最大重试次数,默认3次 spark.shuffle.io.retryWait: 拉取失败的重试间隔,默认5s spark.shuffle.memoryFraction: 用于reduce端聚合的内存比例,默认0.2,超过比例就会溢出到磁盘上