DataFlow编程概述
- DataFlow图
逻辑图和物理图
- 数据并行和任务并行
- 数据交换策略
转发
广播
基于健值
随机
并行流处理
- 延迟和吞吐
- 数据流上的操作
数据接入和数据输出
转换操作
滚动聚合
窗口操作
- 滚动窗口
- 滑动窗口
- 会话窗口
时间语义
- 流处理场景下一分钟的含义
- 处理时间
- 事件时间
- 水位线
- 单调递增
- watermark T表示所有小于等于T的事件都已收到
状态和一致性模型
- 面临挑战
状态管理
状态划分
状态恢复
- 任务故障
- 结果故障
至多一次
至少一次
精确一次
端到端的精确一次 Flink的connecter