spark性能优化 - 润新知

spark性能优化
两种序列化机制：

java和kryo序列化机制；

那么我们如何优化kryo类库的使用呢？

1、优化缓存大小

如果注册的要序列化的自定义的类型，本身就特别大，比如包括了超过100field，那么就会导致要序列化的对象过大，

此时就需要对kryo本身进行优化，因为kryo内部的缓存可能不够存放那么大的class对象，此时就需要调用SparkConf.set()方法，

设置spark.kryoserializer.buffer.mb参数的值，将其调大；

2、预先注册自定义类型

不进行注册自定义类型，kryo类库也能正常工作，但是，对于它要序列化的每个对象，都会保存一份它的全限定类名，此时反而

会耗费大量内存，因此通常都建议预先注册好要序列化的自定义的类；

那么我们在什么场景下使用kryo序列化类库呢？

在算子函数使用到了外部的大数据的情况，举例就是我们在外部定义了一个封装了应用了所有配置的对象，比如自定义了一个

MyConfiguration对象，里面包含了100m的数据，之后在算子函数里面使用到了这个外部的大对象；

那么我们去如何优化数据结构？

1、优先使用数组以及字符串，而不是集合类，换言之，就是优先用array，而不是

ArrayList、LinkedList、HashMap集合；

2、避免使用多层嵌套的对象结构，举例:
```
public class Teacher{
    private List<Student> students = new ArrayList<String>()
}
```
3、对于有些能够避免的场景，尽量使用int替代String，因为String虽然比ArrayList、

HashMap等数据结构高效多了，占用内存量少多了，注意! 在spark应用中，id就不要用

常用的uuid了，因为无法转成int，就用自增int类型id即可；

对多次使用的RDD进行持久化或Checkpoint

若程序中，对某一个RDD，基于它进行了多次transformation或者action操作，那么就有必要对其进行持久化

操作，从而避免对一个RDD反复进行计算，另外，如果要保证在RDD的持久化数据可能丢失的情况下，

还要保证高性能，那么可以对RDD进行Checkponit操作；

接着使用序列化的持久化：

除了上一步优化之外，还可以利用序列化的持久化优化其性能，比如MORY_ONLY_SER、MEMORY_AND_SER等；

使用RDD.persist(StorageLevel.MEMORY_ONLY_SER)这样的语法；如此一来，将数据序列化之后，再持久化，可以大大

减少对内存的消耗，此外，数据量小了以后，如果要写入磁盘，那么磁盘IO性能消耗也较小；对RDD持久化序列化后，RDD的每个

parttion的数据，都是序列化为一个巨大的字节数组，这样会减少内存的消耗，但有一个缺点就是，获取RDD数据时，需要对其进行反序列化，

会增大其性能开销；

因此，对于序列化的持久化级别，还可以进一步优化，也就是说，使用Kryo序列化类库，这样可以获得更快的序列化速度，并占用更小的内存空间，】

但是注意，如果RDD的元素(RDD<T>的泛型类型)是自定义类型的话，在Kryo中提前注册自定义类型；

什么是Java虚拟机垃圾回收调优机制？

如何提高并行度？

实际上spark集群的资源并不一定会被充分利用，所以要尽量设置合理的并行度，来充分地利用集群的资源；

才能充分提高spark程序的性能；

spark会自动设置一文件作为输入源的RDD并行度，依据其大小，例如HDFS，就会给每个block创建一个partition，

也依据这个设置并行度，对于reduceByKey等会发生的shuffle的操作，就使用并行度最大的父RDD的并行度即可；

然后也可以手动使用textFile()、parallelize（）等方法的第二个参数来设置并行度，也可以使用spark.default.

parallelism参数，来设置统一的并行度，Spark官方的推荐是，给集群中的每个cpu core设置2-3个task；

什么是广播共享数据原理？

若你的算子函数中，使用到了特别大的数据，那么这个时候，推荐将该数据进行广播，这样的话，就不至于

将一个大数据拷贝到每一个task上去，而是给每一个节点拷贝一份，然后节点的task共享该数据；

这样就可以减少大数据在节点上的内存消耗，并可以减少数据到节点的网络传输消耗；

什么是数据本地化？

spark倾向于使用最好的本地化级别来调度task，但这无可能，如果没有任何未处理的数据在空闲的executor上，

那么spark就会放低本地化级别，这是有两个选择，第一，等待，直到executor上的cpu释放出来，那么就分配

task过去，第二，立即在任意一个executor上启动一个task;

spark默认会等待一会儿，来期望task要处理的数据所在的节点上的executor空闲出一个cpu，从而将task分配过去，

只要超过了时间，那么spark就会将task分配到其他任意一个空间的executor上；

原理图：
相关阅读:
《DSP using MATLAB》Problem 7.16
《DSP using MATLAB》Problem 7.15
《DSP using MATLAB》Problem 7.14
线性基
 P2476-记忆化搜索
 树状数组（板子）
Codeforces Round #633 (Div. 2) C. Powered Addition
Codeforces Round #633 (Div. 2) B. Sorted Adjacent Differences
思维，暴力，打表
 RMQ倍增板子（区间最值查询问题）（静态）
原文地址：https://www.cnblogs.com/zhzJAVA11/p/10483520.html