[记录点滴] Spark迁移到Flink的几个点

[记录点滴] Spark迁移到Flink的几个点
[记录点滴] Spark迁移到Flink的几个点

0x00 三个问题点

有三个Spark API需要找到对应的Flink API或者替代方法
- reduceByKeyAndWindow
  
  函数reduceByKeyAndWindow（+,-,Seconds(3s),seconds(2)）设计理念是，当滑动窗口的时间Seconds(2) < Seconds(3)（窗口大小）时，两个统计的部分会有重复，那么我们就可以不用重新获取或者计算，而是通过获取旧信息来更新新的信息，这样即节省了空间又节省了内容，并且效率也大幅提升。
- groupByKey()
  
  这个居然是用来去重：groupByKey().map( a => (a.1, a._2.head))
  
  因为groupByKey的第二个参数就是列表，如果这个列表的元素都是相同的，则head操作就实际上起到了去重作用。
- coalesce 如何替代
0x01 解决

reduceByKeyAndWindow

这个用 text.keyBy(0).timeWindow(start, end).reduce来完成

groupByKey()去重

这个用text.keyBy(0).timeWindow(start, end).sum(1).filter(x => {x!=null}).map(x => x._1)

其中sum..filter().map()就起到了去重

coalesce 如何替代

这个目前方法是使用setParallelism(n)来限定输出文件数目。如果是csv文件，可以再加上partitionByHash。或者可以再加上一个 rebalance。
```
wordCounts.partitionByHash(1).writeAsCsv("xxx").setParallelism(2);
text.writeAsText("xxx").setParallelism(2);
```
我的博客即将同步至腾讯云+社区，邀请大家一同入驻：https://cloud.tencent.com/developer/support-plan?invite_code=33pqkc4zbzy84
相关阅读:
OpenFileMapping
findwindow
CopyMemory
SetWindowsHookEx
fillchar
什么是ashx文件
 WPF中的控件
 WPF X名称空间里都有什么
 XAML语法学习之...
Repeater控件使用总结
原文地址：https://www.cnblogs.com/rossiXYZ/p/13172145.html

[记录点滴] Spark迁移到Flink的几个点

[记录点滴] Spark迁移到Flink的几个点

0x00 三个问题点

0x01 解决

reduceByKeyAndWindow

groupByKey()去重

coalesce 如何替代