• Spark Streaming概念学习系列之SparkStreaming的高层抽象DStream


      不多说,直接上干货!

    SparkStreaming的高层抽象DStream

        

      为了便于理解,Spark Streaming提出了DStream抽象,代表连续不断的数据流。

      DStream 是一个持续的RDD 序列。

      可以从外部输入源创建DStream,也可以对其他DStream 应用进行转化操作得到新DStream。

     

     

     

    Dstream与RDD的关系

            

          

     

      DStream 是一个持续的RDD 序列。

      对Dstream的转换操作最终会映射到内部随时间不断生成的RDD上。

     

     

    Batch duration

        

      Spark Streaming按照设定的batch duration来累积数据,周期结束时把周期内的数据作为一个RDD,并提交任务给Spark Engine。

      batch duration的大小决定了Spark Streaming提交作业的频率和处理延迟。

      batch duration的大小设定取决于用户的需求,一般不会太大。

  • 相关阅读:
    leetcode_138复制带随机指针的链表
    minSTL
    LLVM
    STL基础_迭代器
    mysql数据库表清空后id如何从1开始自增
    explain用法和结果分析
    MySQL多表查询与子查询
    数据结构与算法笔记
    MySQL数据库的SQL语言与视图
    mysql忘记密码解决方案
  • 原文地址:https://www.cnblogs.com/zlslch/p/6945053.html
Copyright © 2020-2023  润新知