• java-spark中各种常用算子的写法示例


    Spark的算子的分类

    从大方向来说,Spark 算子大致可以分为以下两类:

    1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。

    Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。

    2)Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业。

    Action 算子会触发 Spark 提交作业(Job),并将数据输出 Spark系统。

    从小方向来说,Spark 算子大致可以分为以下三类:

    1)Value数据类型的Transformation算子,这种变换并不触发提交作业,针对处理的数据项是Value型的数据。

    2)Key-Value数据类型的Transfromation算子,这种变换并不触发提交作业,针对处理的数据项是Key-Value型的数据对。

    3)Action算子,这类算子会触发SparkContext提交Job作业。

    引言

    通常写spark的程序用scala比较方便,毕竟spark的源码就是用scala写的。然而,目前java开发者特别多,尤其进行数据对接、上线服务的时候,这时候,就需要掌握一些spark在java中的使用方法了

    一、map

    map在进行数据处理、转换的时候,不能更常用了

    在使用map之前 首先要定义一个转换的函数 格式如下:

    Function<String, LabeledPoint> transForm = new Function<String, LabeledPoint>() {//String是某一行的输入类型 LabeledPoint是转换后的输出类型
     @Override
     public LabeledPoint call(String row) throws Exception {//重写call方法
     String[] rowArr = row.split(",");
     int rowSize = rowArr.length;
     
     double[] doubleArr = new double[rowSize-1];
     
     //除了第一位的lable外 其余的部分解析成double 然后放到数组中
     for (int i = 1; i < rowSize; i++) {
      String each = rowArr[i];
      doubleArr[i] = Double.parseDouble(each);
     }
     
     //用刚才得到的数据 转成向量
     Vector feature = Vectors.dense(doubleArr);
     double label = Double.parseDouble(rowArr[0]);
     //构造用于分类训练的数据格式 LabelPoint
     LabeledPoint point = new LabeledPoint(label, feature);
     return point;
     }
     };

    需要特别注意的是:

    1、call方法的输入应该是转换之前的数据行的类型  返回值应是处理之后的数据行类型

    2、如果转换方法中调用了自定义的类,注意该类名必须实现序列化 比如

    public class TreeEnsemble implements Serializable {
    }

    3、转换函数中如果调用了某些类的对象,比如该方法需要调用外部的一个参数,或者数值处理模型(标准化,归一化等),则该对象需要声明是final

    然后就是在合适的时候调用该转换函数了

    JavaRDD<LabeledPoint> rdd = oriData.toJavaRDD().map(transForm);

    这种方式是需要将普通的rdd转成javaRDD才能使用的,转成javaRDD的这一步操作不耗时,不用担心

    二、filter

    在避免数据出现空值、0等场景中也非常常用,可以满足sql中where的功能

    这里首先也是要定义一个函数,该函数给定数据行 返回布尔值 实际效果是将返回为true的数据保留

    Function<String, Boolean> boolFilter = new Function<String, Boolean>() {//String是某一行的输入类型 Boolean是对应的输出类型 用于判断数据是否保留
     @Override
     public Boolean call(String row) throws Exception {//重写call方法
     boolean flag = row!=null;
     return flag;
     }
     };

    通常该函数实际使用中需要修改的仅仅是row的类型 也就是数据行的输入类型,和上面的转换函数不同,此call方法的返回值应是固定为Boolean

    然后是调用方式

    JavaRDD<LabeledPoint> rdd = oriData.toJavaRDD().filter(boolFilter);

    三、mapToPair

    该方法和map方法有一些类似,也是对数据进行一些转换。不过此函数输入一行 输出的是一个元组,最常用的方法是用来做交叉验证 或者统计错误率 召回率 计算AUC等等

    同样,需要先定义一个转换函数

    Function<String, Boolean> transformer = new PairFunction<LabeledPoint, Object, Object>() {//LabeledPoint是输入类型 后面的两个Object不要改动
     @Override
     public Tuple2 call(LabeledPoint row) throws Exception {//重写call方法 通常只改动输入参数 输出不要改动
     double predicton = thismodel.predict(row.features());
     double label = row.label();
     return new Tuple2(predicton, label);
     }
     });

    关于调用的类、类的对象,要求和之前的一致,类需要实现序列化,类的对象需要声明成final类型

    相应的调用如下:

    JavaPairRDD<Object, Object> predictionsAndLabels = oriData.mapToPair(transformer);
  • 相关阅读:
    SpringBoot集成Shiro 实现动态加载权限
    docker 常用命令 以及常见问题
    sql小知识点
    下载文件时-修改文件名字
    关于.net导出数据到excel/word【占位符替换】
    常见js报错
    .net core api +swagger(一个简单的入门demo 使用codefirst+mysql)
    .net core +codefirst(.net core 基础入门,适合这方面的小白阅读,本文使用mysql或mssql)
    基础测试jmeter5.0+badboy(从小白到入门)
    关于ef+codefirst+mysql/dapper(dbFirse)(入门)
  • 原文地址:https://www.cnblogs.com/zaixiachengxuyuan/p/14465536.html
Copyright © 2020-2023  润新知