• Flink 流处理API之实现UDF函数——更细粒度的控制流


    1 函数类(Function Classes

    Flink暴露了所有udf函数的接口(实现方式为接口或者抽象类)。例如MapFunction, FilterFunction, ProcessFunction等等。

    下面例子实现了FilterFunction接口:

    DataStream<String> flinkTweets = tweets.filter(new FlinkFilter());

     

    public static class FlinkFilter implements FilterFunction<String> {
        @Override
        public boolean filter(String value) throws Exception {
            return value.contains("flink");
        }
    }

    还可以将函数实现成匿名类

    DataStream<String> flinkTweets = tweets.filter(new FilterFunction<String>() {
        @Override
        public boolean filter(String value) throws Exception {
            return value.contains("flink");
        }
    });

    我们filter的字符串"flink"还可以当作参数传进去。

    DataStream<String> tweets = env.readTextFile("INPUT_FILE ");

    DataStream<String> flinkTweets = tweets.filter(new KeyWordFilter("flink"));

     

    public static class KeyWordFilter implements FilterFunction<String> {
        private String keyWord;

        KeyWordFilter(String keyWord) { this.keyWord = keyWord; }

        @Override
        public boolean filter(String value) throws Exception {
            return value.contains(this.keyWord);
        }
    }

    2 匿名函数(Lambda Functions

    DataStream<String> tweets = env.readTextFile("INPUT_FILE");

    DataStream<String> flinkTweets = tweets.filter( tweet -> tweet.contains("flink") );

    3 富函数(Rich Functions)(学习重点)

    “富函数”是DataStream API提供的一个函数类的接口,所有Flink函数类都有其Rich版本。它与常规函数的不同在于,可以获取运行环境的上下文,并拥有一些生命周期方法,所以可以实现更复杂的功能。

    l RichMapFunction

    l RichFlatMapFunction

    l RichFilterFunction

    l …​

    Rich Function有一个生命周期的概念。典型的生命周期方法有

    l open()方法是rich function的初始化方法,当一个算子例如map或者filter被调用之前open()会被调用。

    l close()方法是生命周期中的最后一个调用的方法,做一些清理工作。

    l getRuntimeContext()方法提供了函数的RuntimeContext的一些信息,例如函数执行的并行度,任务的名字,以及state状态

    代码:

     

    public static class MyMapFunction extends RichMapFunction<SensorReading, Tuple2<Integer, String>> {
        @Override
        public Tuple2<Integer, String> map(SensorReading value) throws Exception {
            return new Tuple2<>(getRuntimeContext().getIndexOfThisSubtask(), value.getId());
        }

        @Override
        public void open(Configuration parameters) throws Exception {
            System.out.println("my map open");
            // 以下可以做一些初始化工作,例如建立一个和HDFS的连接
        }

        @Override
        public void close() throws Exception {
            System.out.println("my map close");
            // 以下做一些清理工作,例如断开和HDFS的连接
        }
    }

     

  • 相关阅读:
    查看.Net Framework的版本(PC和WinCE)
    .NET C# 创建WebService服务简单的例子
    ORA-01502错误成因和解决方法
    高水线 High water mark(HWM)
    Oracle高水位线(HWM)及性能优化
    解决(Oracle)ORA-12528: TNS: 监听程序: 所有适用例程都无法建立新连接 问题
    ORACLE切非归档模式:
    ArcGIS学习记录—dbf shp shx sbn sbx mdb adf等类型的文件的解释
    ArcGIS学习记录—ArcGIS ArcMap编辑状态中线打断的问题
    ArcGIS学习记录—Arcgis中点、线、面的相互转换方法
  • 原文地址:https://www.cnblogs.com/whdd/p/14055855.html
Copyright © 2020-2023  润新知