spark调优 - 润新知

spark调优

　　开发调优和资源调优是所有spark作业都要注意和遵循的基本原则，是高性能spark作业的基础；数据倾斜调优，主要解决spark作业数据倾斜的；shuffle调优，对spark作业的shuffle运行过程以及细节进行调优

1、开发调优

　　1、对于同一份数据如hive表，hdfs文件，只应该创建一个RDD，不能创建对个RDD代表同一份数据，在开发过程应该避免重复创建，否则重复计算，增作业性能开销

　　2、尽可能复用同一个RDD，对于多个RDD的数据有重叠或包含的情况，应尽量复用一个RDD，减少RDD数量，减少算子执行的次数

　　3、对多次使用的RDD进行持久化：第一步优化，尽可能复用RDD，第二步优化，对一个RDD执行多次算子操作时，这个RDD本身仅被计算一次。spark中每次对一个RDD执行一个算子操作时，都会从源头计算一遍，性能很差。因此，对该RDD进行持久化，将RDD数据保存到内存或磁盘。cache（）方法：使用非序列化方式将RDD数据全部尝试持久化到内存，persist（）手动选择持久化级别

　　4、尽量避免使用shuffle类算子，spark作业运行过程中，最消耗性能的地方是shuffle过程，大量磁盘io和数据网络传输操作导致性能较差

　　5、使用map-side预聚合的shuffle操作

　　6、使用高性能算子：reduceByKey和aggregateByKey替代groupByKey；使用mapPartiton替代map；使用foreachPartition替换foreach；使用filter之后进行coalesce；使用reparationAndSortWithinPartitions替代reparation后+sort

　　7、广播大变量：如100m以上的大集合

　　8、使用kryo优化序列化性能

　　9、优化数据结构：java中三类类型好内存，对象、字符串、集合类型，因此尽量用字符串替换对象，原始类型替换字符串，数组替换集合类型，尽可能减少内存占用，降低GC频率

2、资源调优

　　spark资源参数可在spark-submit中设置

　　1、num-executors：执行器个数，每个spark作业运行一般设置50-100个执行器进程

　　2、executor-memory：每个执行器内存，4-8G

　　3、executor-cores：每个执行器核数，每个执行器并行执行task的能力 2-4

　　4、driver-memory：driver进程内存，1G，如果有collect算子将RDD数据全拉取到Driver处理，需要加大driver内存

　　5、spark.default.parallelism：设置每个stage默认的task数量 500-1000

　　6、spark.storage.meoryFraction：Rdd持久化数据在执行器内存中能占的比例，默认0.6

　　7、spark.shuffle.memoryFraction：shuffle过程中一个task拉取到上个stage的task的输出后，进行聚合操作时能使用执行器内存的比例，默认0.2

3、数据倾斜调优

4、shuffle调优

渐变 --> 突变
相关阅读:
6.etc目录下重要文件和目录详解
 5.linux目录结构介绍
 4.CRT远程连接的使用
 3.了解linux系统以及搭建学习环境
 记录groupby的一次操作
 keras 文本序列的相关api
networkX.core_number(graph)
关于无向图的最大团的问题。
数据分析，numpy pandas常用api记录
 conda install 失败 http404
原文地址：https://www.cnblogs.com/lybpy/p/9813736.html