spark广播变量和累加器

spark广播变量和累加器
1 为什么使用广播变量和累加器

变量存在的问题：在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序，通常跨任务的读写变量是低效的。

广播变量的目的就是解决变量存在的问题，变量声明为广播变量，那么知识每个executor拥有一份，这个executor启动的task会共享这个变量，节省了通信的成本和服务器的资源。

总的来说：累加器是用来对信息进行聚合，广播变量是用来分发较大的只读对象。

2 如何定义和还原广播变量
```
int a = 3;
Broadcast<Integer> broadcast = sc.broadcast(a);  //定义广播变量
int c = broadcast.value;    //还原广播变量
```
3 广播变量注意事项

（1）变量一旦被定义为一个广播变量，那么这个变量只能读，不能修改

（2）能不能将一个RDD使用广播变量广播出去？

不能，因为RDD是不存储数据的。可以将RDD的结果广播出去。

（3）广播变量只能在Driver端定义，不能在Executor端定义。

（4）在Driver端可以修改广播变量的值，在Executor端无法修改广播变量的值。

（5）如果executor端用到了Driver的变量，如果不使用广播变量在Executor有多少task就有多少Driver端的变量副本。

（6）如果Executor端用到了Driver的变量，如果使用广播变量在每个Executor中只有一份Driver端的变量副本。

4 广播变量的优化

当广播一个比较大的值时，选择既快又好的序列化格式是很重要的。因为如果序列化对象的时间很长或者传送时间太久，这段时间很容易出现性能瓶颈。

默认情况下，spark会使用java内建的序列化库。建议选择kryo序列化工具，使用方法设置spark.serializer为org.apache.spark.serializer.KryoSerializer；

最好强制要求这种注册，设置spark.kryo.registrationRequired为true；
```
        SparkConf conf = new SparkConf()；
        conf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer");
        conf.set("spark.kryo.registrationRequired","true");
        conf.registerKryoClasses(Array(classOf[myClass]),classOf(MyOtherClass));
```
这样还会有其他的问题，如果代码中引用的类没有序列化，会报异常，最简单的方式是实现序列化接口。

5 累加器和定义和还原

累加器只是一个只写变量
```
        LongAccumulator accumulator = new LongAccumulator();
        accumulator.add(1);
        long count = accumulator.count();
```
参考文献：扎心了，老铁
相关阅读:
内核学习<1>
守护进程（Daemon进程）
内核模块版本和内核版本不一致的处理方法
 下载，安装 Source Navigator(ubuntu 14.04)
最新android NDK 下载地址 for Windows
HTML5初学一随机的骰子
 系统自带视频
 网络接口log打印
 recyclerView嵌套recycleView
冒泡循环
原文地址：https://www.cnblogs.com/parent-absent-son/p/9956574.html

spark广播变量 和 累加器

spark广播变量和累加器