spark性能优化之序列化

spark性能优化之序列化
系列化是干什么的？

序列化简单来说就保存对象在内存中的状态也可以说是实例化变量。这是Java提供的用来保存 Object state，一种保存对象状态的机制。只有实现了serializable接口的类的对象才能被实例化
Java中，一切都是对象，在分布式环境中经常需要将Object从这一端网络或设备传递到另一端。这就需要有一种可以在两端传输数据的协议。Java序列化机制就是为了解决这个问题而产生。

什么情况下会用到序列化？
- 当你想把内存中的对象写入到硬盘时
- 当你想用套接字在网络上传输对象时
- 当你想通过RMI调用对象时(RMI总结来说就是远程调用对象，在一个jvm上调用另一个jvm的对象)
Spark为什么需要序列化？

Spark是分布式执行引擎，其核心抽象是弹性分布式数据集RDD，其代表了分布在不同节点的数据。Spark的计算是在executor上分布式执行的，所以对象在执行中需要通过网络传输，或者持久化到本地磁盘的时候必须要经过序列化。

Spark支持的序列化

spark默认使用的是java序列化，java序列化的好处是非常灵活，开发起来很简单，缺点是速度较慢，在某些情况下序列化的结果也比较大
Spark也能使用Kryo（版本2）序列化对象。Kryo不但速度极快，而且产生的结果更为紧凑（通常能提高10倍）。Kryo的缺点是不支持所有类型，为了更好的性能，你需要提前注册程序中所使用的类（class）。

实现步骤
```
val conf = new SparkConf().setAppName("Test")
      .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")   //声明序列化器为KryoSerializer
      .registerKryoClasses(Array(classOf[MyClass1],classOf[MyClass2],classOf[MyClass3]))  //注册要序列化的自定义类型
```
参考：https://tech.meituan.com/2016/04/29/spark-tuning-basic.html

spark性能调优

有篇文章写得很好，可以参考下
https://www.cnblogs.com/stillcoolme/p/10576563.html
原则八
相关阅读:
使用blend制作地图区域改变颜色动画效果
 使用Win32创建串口通讯程序[转]
ArcGIS的网络分析【转】
推荐10款非常优秀的 HTML5 开发工具[转]
Win32串口编程（转：韩耀旭）
软件项目版本号的命名规则及格式介绍【转】
[ArcGIS+Win7][转]安装ArcGIS后打开"打开或关闭 Windows 功能"一片空白解决方案
 js判断客户端是否安装了activex控件[转帖]
纪念失去的爱情(抒情诗)
委托事件之买烟
原文地址：https://www.cnblogs.com/goldenSky/p/13877712.html

spark性能优化之序列化

系列化是干什么的？

什么情况下会用到序列化？

Spark为什么需要序列化？

Spark支持的序列化

实现步骤

spark性能调优