Spark Streaming之性能调优

Spark Streaming之性能调优
Spark流式计算程序要想运行顺畅，也需要一些基本的调优，总结一下主要在两个方向：
- 每个批次的处理时间尽可能短。
- 收到数据后，尽可能地处理。
1.减少批处理的时间

　　一是增加数据接收的并发数量，尤其是当瓶颈发生在数据接收的时候。默认每个Input DStream都只会创建一个接收器，运行在某个节点上，我们可以创建多个Input DStream，让它们接收不同的数据分区，以实现并行接收。比如一个接收两个Kafka topic的Input DStream可以优化为两个Input DStream，各接收一个topic，然后再合并。代码如下：
```
val numStreams = 5
val kafkaStreams = (1 to numStreams).map{i => KafkaUtils.createStream(...)}
val unifiedStream = streamContext.union(kafkaStreams)
unifiedStream.print()
```
二是数据处理的并发度，如果并发度不够，可能导致集群的资源不被充分利用。一个最简单的方法是看各机器CPU的所有核心是不是都在工作，如果有空闲的，则可以考虑增加并行度【可以调整选项：spark.default.parallelism】。

三要数据序列化，数据接收后，当需要与磁盘交换数据时，数据可能会进行序列化和反序列化，好处是节省空间和内存，但会增加计算负担。因此，我们应该尽可能地使用Kryo来完成这项工作，CPU和内存开销都相对小一些。。

最后是要注意task启动的额外开销，如果task启动过于频繁，那么额外的开销可能非常高，甚至无法达到那样的实时计算要求。

2.设置合理批次间隔时间

　　为了让每个批次的数据能够尽快处理，批次间隔时间的设置非常重要。经验表明，一般来说短时间间隔会导致更多的额外开销，以及无法完成的风险，所以前期可以采用相对保守的方法，比如设置间隔为5~10秒。然后，通过观察运行数据或者最终的输出数据确保系统足够实时，每个间隔的实际计算时间远小于间隔时间，然后再逐渐按需要缩短间隔时间。
相关阅读:
链表查找问题总结
 部分有序中查找给定值-【百度面试题】循环有序数组的查找问题
 为何要将整型变量强制转化为指针
 洗牌算法汇总
 如果有三个Bool型变量，请写出一程序得知其中有2个以上变量的值是true
利用宏来求结构体成员偏移值
 水塘抽样问题
 Javascript 装载和执行
 git ssh认证
 git 配置文件
原文地址：https://www.cnblogs.com/yszd/p/13405790.html