• 【大数据技术】Flink


    “下一代大数据处理引擎王者” Apache Flink

    它既能保证数据一致性“Exactly Once",又能实时快速的处理海量数据。与生俱来的 Watermark 功能让它能对复杂数据乱序场景应对自如,它充分体现了“批”、“流”一体的完美结合同时又代表着“流”、“表”二象性的和谐统一。

    两种数据集:无边界数据集(连续不断追加)和有边界数据集

    两种执行模式 

    - 流式传输(Streaming) :只要数据生成,连续执行的处理 

    - 批处理(Batch):在有限的时间内执行并运行到完整的处理,完成后释放计算资源

    使用任一类型的执行模型来处理任一类型的数据集都是可能的,但不一定是最优的。
    Flink依赖于流式处理模型,这是一种适用于处理无界数据集的流程:流执行是对连续生成的数据进行连续处理。

    Flink是分布式流处理的开源框架:

    提供准确的结果,即使在无序或延迟数据的情况下也是如此

    具有状态和容错能力,可以在保持应用状态的同时无故障地从故障中恢复

    大规模执行,在数千个节点上运行,具有非常好的吞吐量和延迟特性

    状态管理,无序数据处理,灵活的窗口 - 对于Flink来说在无界数据集上计算的结果准确性至关重要.

    Flink保证用于状态计算的一次性语义。“有状态”意味着应用程序可以维护一段时间内已处理的数据的聚合或汇总,Flink的检查点机制可以确保在发生故障时应用程序状态的一致性语义。

    Flink支持流处理和窗口与事件时间语义,事件时间使得计算准确的结果变得容易,这些流可能产生无序数据或者数据延迟到达的情况。

    除了数据驱动的窗口之外,Flink还支持基于时间,计数或会话的灵活窗口。Windows可以通过灵活的触发条件进行定制,以支持复杂的流式传输模式。Flink的窗口使得可以对创建数据的环境的现实进行建模。

    参考文档

    Flink简介

  • 相关阅读:
    [转]ROS学习笔记十一:ROS中数据的记录与重放
    [转]百度Appollo无人车Perception Module 分析
    百度 Apollo无人车平台增加传感器
    [转]Ubuntu16.04安装搜狗输入法
    [转]Ubuntu16 压缩解压文件命令
    Baidu Apollo use: command " rosbag " not fonud
    nvidia-smi command not found Ubuntu 16.04
    启动Turtlesim,输入roscore命令,报错
    Linux系统下安装Nginx
    linux重启后JDk环境变量配置失效最终解决方案
  • 原文地址:https://www.cnblogs.com/badboy200800/p/9992961.html
Copyright © 2020-2023  润新知