• Spark(五)【RDD的序列化】


    1.闭包检查

    ​ 从计算的角度, 算子以外的代码都是在Driver端执行, 算子里面的代码都是在Executor端执行。那么在scala的函数式编程中,就会导致算子内经常会用到算子外的数据,这样就形成了闭包的效果,如果使用的算子外的数据无法序列化,就意味着无法传值给Executor端执行,就会发生错误,所以需要在执行任务计算前,检测闭包内的对象是否可以进行序列化,这个操作我们称之为闭包检测。

    如图

    2.序列化方法和属性

    从计算的角度, 算子以外的代码都是在Driver端执行, 算子里面的代码都是在Executor端执行

    object serializable02_function {
    
        def main(args: Array[String]): Unit = {
            val conf: SparkConf = new SparkConf().setAppName("SparkCoreTest").setMaster("local[*]")
            val sc: SparkContext = new SparkContext(conf)
    
            val rdd: RDD[String] = sc.makeRDD(Array("hello world", "hello spark", "hive", "atguigu"))
    
            //3.1创建一个Search对象
            val search = new Search("hello")
    
            //3.2 函数传递,打印:ERROR Task not serializable
            search.getMatch1(rdd).collect().foreach(println)
    
            //3.3 属性传递,打印:ERROR Task not serializable
            search.getMatch2(rdd).collect().foreach(println)
    
            //4.关闭连接
            sc.stop()
        }
    }
    
    class Search(query:String) extends Serializable {
    
        def isMatch(s: String): Boolean = {
            s.contains(query)
        }
    
        // 函数序列化案例
        def getMatch1 (rdd: RDD[String]): RDD[String] = {
            //rdd.filter(this.isMatch)
            rdd.filter(isMatch)//rdd引用了对象的成员方法产生闭包
        }
    
        // 属性序列化案例
        def getMatch2(rdd: RDD[String]): RDD[String] = {
            //rdd.filter(x => x.contains(this.query))
            rdd.filter(x => x.contains(query))//rdd引用了对象的成员属性产生闭包     
            /*解决方案:将成员属性值赋值给Int局部变量,基本类型已经实现了序列化。*/
            //val q = query
            //rdd.filter(x => x.contains(q))
        }
    }
    
    

    3.序列化异常解决方案

    ①extends Serializable:类实现序列化

    ②使用case class:使用样例类,样例类默认实现序列化

    ③不引用对象的成员方法和变量,可以使用局部变量保存属性的值、 使用函数或匿名函数!

    4.Kryo序列化框架

    ​ Java的序列化能够序列化任何的类。但是比较重(字节多),序列化后,对象的提交也比较大。Spark出于性能的考虑,Spark2.0开始支持另外一种Kryo序列化机制。Kryo速度是Serializable的10倍。当RDD在Shuffle数据的时候,简单数据类型、数组和字符串类型已经在Spark内部使用Kryo来序列化。

    注意:即使使用Kryo序列化,也要继承Serializable接口。

    使用方式

    将需要使用Kryo序列化的对象在conf中注册,即可使用

    val conf: SparkConf = new SparkConf()
                    .setAppName("SerDemo")
                    .setMaster("local[*]")
                    // 替换默认的序列化机制
                    .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
                    // 注册需要使用 kryo 序列化的自定义类
                    .registerKryoClasses(Array(classOf[Searcher]))
            val sc = new SparkContext(conf)
    
    
  • 相关阅读:
    南阳33(蛇形填数)规律题;
    南阳241(字母统计)
    南阳57(6174问题)
    android图形基础知识
    Linux中yum手动安装、手动建立仓库文件夹关联实现关联包自动安装、yum相关命令使用
    debug连线指令
    Qt之信号连接,你Out了吗?
    hdu-4607-Park Visit
    MySQL 分区表 partition线上修改分区字段,后续进一步学习partition (1)
    如何用正则将多个空格看成一个空格结合spllit()方法将文本数据入库
  • 原文地址:https://www.cnblogs.com/wh984763176/p/13433343.html
Copyright © 2020-2023  润新知