内置水印生成器
正如在Generating Watermarks一文中所描述的,Flink提供了抽象,允许程序员分配自己的时间戳和发射自己的水印。更具体地说,可以通过实现WatermarkGenerator接口来实现。
为了进一步简化此类任务的编程工作,Flink自带了一些预先实现的时间戳分配器。本节提供了它们的列表。除了它们的开箱即用的功能外,它们的实现可以作为自定义实现的范例。
单调增加的时间戳
周期性水印生成的最简单的特殊情况是当给定源任务看到的时间戳以升序出现时。在这种情况下,当前的时间戳总是可以作为水印,因为不会有更早的时间戳到达。
请注意,只需要每个并行数据源任务的时间戳是升序的。例如,如果在一个特定的设置中,一个Kafka分区被一个并行数据源实例读取,那么只需要在每个Kafka分区内时间戳是升序的。每当并行流被洗牌、联合、连接或合并时,Flink的水印合并机制都会生成正确的水印。
WatermarkStrategy.forMonotonousTimestamps()
固定的延迟量
周期性水印生成的另一个例子是,当水印滞后于流中看到的最大(事件时间)时间戳的固定时间量时。这种情况涵盖了预先知道流中可能遇到的最大延迟的场景,例如,当创建一个包含时间戳分布在固定时间段内的元素的自定义源进行测试时。对于这些情况,Flink提供了BoundedOutOfOrdernessWatermarks生成器,它以maxOutOfOrderness作为参数,即在计算给定窗口的最终结果时,一个元素在被忽略之前允许迟到的最大时间。Lateness对应于t - t_w的结果,其中t是一个元素的(事件-时间)时间戳,t_w是之前的水印。如果lateness > 0,那么该元素被认为是迟到的,并且默认情况下,在计算其对应窗口的作业结果时被忽略。请参阅关于允许延迟的文档,以获得更多关于处理迟到元素的信息。
WatermarkStrategy .forBoundedOutOfOrderness(Duration.ofSeconds(10))