• Flink Connector开发


    预定义的source和sink

    大多都是在测试,开发验证中使用

    自带的连接器

    参考官网:https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/connectors/

    基于Apache Bahir的连接器

    比如写redis: https://bahir.apache.org/docs/flink/current/flink-streaming-redis/

    有时候在Flink 项目中访问 Redis 的方法都是自己进行的实现,推荐使用 Bahir 连接器。

    基于异步 I/O

    异步 I/O 是 Flink 提供的非常底层的与外部系统交互的方式。

    在流式系统中跟外部数据源做一个关联,比如跟mysql数据库中的一张表进行关联,即可在map或者flatmap中去跟数据库建立连接读取数据,,如果用同步IO的话会等待其响应的时间比较长,影响整个作业的吞吐。所以为了解决这种问题,而引入了异步IO的方式,以批量发送批量获取结果来提高吞吐,具体异步IO的实现原理可以通过下面的连接查看。

     

    Flink kafka connector

    官网:https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/connectors/kafka.html#apache-kafka-connector

    Flink kafka consumer

    1.构建consumer实例

    StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
    ​
            //设置环境
            env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
            env.enableCheckpointing(60*1000, CheckpointingMode.EXACTLY_ONCE);
    ​
            //设置kafka相关属性
            Properties properties = new Properties();
            properties.setProperty("bootstrap.servers", "localhost:9092");
    //        properties.setProperty("zookeeper.connect", "localhost:2181");// only required for Kafka 0.8
            properties.setProperty("group.id", "test");
            FlinkKafkaConsumer010<String> myConsumer = new FlinkKafkaConsumer010<>("myTopic", new SimpleStringSchema(), properties);
    // new SimpleStringSchema():表示用什么样的方式来反序列化kafka中的二进制数据。这里按字符串的方式来反序列化
    // new FlinkKafkaConsumer010:表示kafka版本为0.10.x
    // 如果kafka为0.8.x或者0.9.x 则使用FlinkKafkaConsumer08或者FlinkKafkaConsumer09
    // 如果Kafka >= 1.0.0 则使用FlinkKafkaConsumer

    2.反序列化数据

    Flink Kafka Consumer需要知道怎么将kafka中的二进制数据转换为Java/Scala对象,我们在使用时候通过定义DeserializationSchema来指定如何反序列化数据,然后在处理每一条kafak message时候通过调用deserialize(byte[] message) 方法来进行反序列化。

    常用的DeserializationSchema

    • SimpleStringSchema:按字符串的方式进行序列化和反序列化

    • TypeInformationSerializationSchema:基于flink的TypeInformation来构建schema

    • JsonDeserializationSchema:使用jackson反序列化json格式消息,并返回ObjectNode,通过objectNode.get("field").as(Int/String/...)()来访问字段

     

    3.设置消费起始offset

    // 从kafka最早的位置开始读取
    myConsumer.setStartFromEarliest();
    // 从kafka最新的数据开始读取
    myConsumer.setStartFromLatest();
    // 从时间戳>=1561281792000L的数据开始读取
    myConsumer.setStartFromTimestamp(1561281792000L); 
    // (默认配置)从kafka记录的group.id的位置开始记录,如果没有则根据auto.offset.reset设置
    myConsumer.setStartFromGroupOffsets(); 
    ​
    // 指定确切的offset位置
    Map<KafkaTopicPartition, Long> specificStartOffsets = new HashMap<>();
    specificStartOffsets.put(new KafkaTopicPartition("myTopic", 0), 23L);
    specificStartOffsets.put(new KafkaTopicPartition("myTopic", 1), 31L);
    specificStartOffsets.put(new KafkaTopicPartition("myTopic", 2), 43L);
    myConsumer.setStartFromSpecificOffsets(specificStartOffsets);

    注意:作业故障从checkpoint自动恢复,以及手动做savepoint时,消费的位置从保存状态中恢复,与该配置无关

    4.Topic和Partition动态发现

    Partition discovery:

    kafka 分区的增加在企业中很常见,在当前分区数不能满足以下几种情况时就需要新增分区数

    • 流量增大,当前分区数无法支持大数据量的写入。

    • 业务复杂,虽然写入正常,但是后端消费处理并行度不够。

    默认情况下,分区发现是没有开启的,开启也很简单,只需要给参数flink.partition-discovery.interval-millis 赋值一个非负值即可,该非负值代表制检测的周期,是以毫秒为单位的。实现原理是内部有一个单独的线程定义检测kafka meta信息进行更新。新发现的分区从earliest的位置开始读取。 限制是动态分区发现一旦开启无法从 flink 1.3.x 以前应用的 savepoint 恢复。这种情况下,必须先用 flink 1.3.x 创建一个 savepoint,然后从该savepoint 恢复。

    Topic discovery:

    增加 topic 的形式来增加并行度和吞吐量。要识别新增的 topic,除了发现新增分区里说的配置 flink.partition-discovery.interval-millis 为 非负值,以外还要求我们在配置 topic 的时候以正则表达式的形式。

    FlinkKafkaConsumer011<String> myConsumer = new FlinkKafkaConsumer011<>(
        java.util.regex.Pattern.compile("test-topic-[0-9]"),
        new SimpleStringSchema(),
        properties);

    也即是以正则的形式指定要消费的 topic。

    5.Commit Offset的方式

    分两种情况:

    1.checkpoint禁用

    • 基于kafka客户端的auto commit定期提交offset

    • 需要配置enable.auto.commit (or auto.commit.enable for Kafka 0.8) / auto.commit.interval.ms参数到consumer properties中。

    2.checkpoint开启

    • offset自己在checkpoint state中管理和容错,提交kafka仅作为外部监视消费进度

    • 通过setCommitOffsetsOnCheckpoints(boolean)方法控制checkpoint成功之后是否提交offset到kafka当中

     

    6.Timestamp Extraction/Watermark生成

    per kafka partition watermark

    • assignTimestampsAndWatermarks,每个partition一个assigner,watermark为多个partition对齐后值(木桶短板原理)

    • 不在kafka source后生成watermark,会出现扔掉部分数据情况

    Properties properties = new Properties();
    properties.setProperty("bootstrap.servers", "localhost:9092");
    properties.setProperty("group.id", "test");
    ​
    FlinkKafkaConsumer010<String> myConsumer =
        new FlinkKafkaConsumer010<>("topic", new SimpleStringSchema(), properties);
    myConsumer.assignTimestampsAndWatermarks(new CustomWatermarkEmitter());
    ​
    DataStream<String> stream = env
        .addSource(myConsumer)
        .print();

     

    Flink kafka Producer

    1.构建FlinkKafkaProducer

    FlinkKafkaProducer011<String> myProducer = new FlinkKafkaProducer011<String>(
            "localhost:9092",            // broker list
            "my-topic",                  // target topic
            new SimpleStringSchema());   // serialization schema
    // versions 0.10+ allow attaching the records' event timestamp when writing them to Kafka;
    // this method is not available for earlier Kafka versions
    myProducer.setWriteTimestampToKafka(true);
    ​
    stream.addSink(myProducer);

    代码中是对应kafka 0.11.x,其他版本构建与上面消费者基本一样。

     

    2.Kafka Producer Partitioning Scheme

    • FlinkFixedPartitioner

    默认情况下producer会使用FlinkFixedPartitioner,每个flink Kafka Producer 子任务就会写到一个kafka分区里.

     Sink task与kafka partition有一个对应关系:parallelInstanceId % partitions.length,如果sink task多于partition,比如4个sink task,1个partition,则4个sink task会均写入到那一个partition中,如果sink task小于 partition,比如2个sink,4个partition,则sink task会一一对应kafka partition。剩余2个partition不会有数据写入。

    • Partitioner设置为null

    round-robin kafka partitioner 在写数据到kafka partition时,对数据做轮询插入,这样数据分布会比较均匀,但是有个缺点,就是每个sink task都会跟下游的每个kafka partition维持一个连接,这样会导致维持太多的连接

    • 自定义partitioner

    flink是支持自定义分区的,比如将一定规则的数据发送到指定kafka分区。需要继承FlinkKafkaPartitioner类,实现自定义的partitioner,注意partitioner必须是可序列化的。

     

    3.Kafka Producer 容错

    • Kafka 0.8

    在kafka 0.9之前,kafka没法保证至少一次或者精准一次的实现。

    • Kafka 0.9 and 0.10

    在这两个版本中(FlinkKafkaProducer09和FlinkKafkaProducer010),如果开启了checkpoint,是可以实现

    至少一次。除了开启checkpoint,还需要设置setLogFailuresOnly(boolean)和setFlushOnCheckpoint(boolean)

    setLogFailuresOnly(boolean):默认false,表示在写失败时,是否只打印失败log

    setFlushOnCheckpoint(boolean):默认true,checkpoint时保证数据写入kafka

    如果要实现至少一次,需要配置:

    setLogFailuresOnly(false)+setFlushOnCheckpoint(true)

    • Kafka 0.11 and newer

    开启checkpoint,两阶段提交sink结合kafka事物,可以保证端到端的精准一次。

    https://www.ververica.com/blog/end-to-end-exactly-once-processing-apache-flink-apache-kafka

     

    Flink Kafka 代码示例


    参考:flink-china 董亭亭 快手实时计算引擎团队负责人

    参考:flink 官网

  • 相关阅读:
    【赵强老师】使用Docker Compose进行服务编排
    【赵强老师】Weblogic域和域的组成
    【赵强老师】管理Docker镜像
    3. 清理统一审计 AUD$UNIFIED 基表部份数据
    4. AUD$UNIFIED 基表及 分区键创建索引
    2.更改统一审计AUD$UNIFIED基表 默认表空间
    1.更改统一审计AUD$UNIFIED 分区为1天
    9. 将APEX18.2 升级到 APEX19.2 详细步骤
    1.2 安装中文语言包
    通过VBOX 导入系统工具 搭建APEX开发环境
  • 原文地址:https://www.cnblogs.com/zz-ksw/p/13177971.html
Copyright © 2020-2023  润新知