• spark stream简介


      1.复杂的迭代计算

      假如我们计算的需要100步的计算,但是当我执行到第99步的时候,突然数据消失,

      根据血统,从头进行恢复,代价很高

      sc.setCheckpointDir("共享存储文件系统的路径") //这些地址存储已经执行过的rdd

      

      2.离线计算和实时计算

       storm(实时计算) Flink -> Scala

       spark-Streaming(实时计算,时效性低于storm,但吞吐量大)

       kafka(消息队列,高吞吐),其实就相当于有很多数据源过来,但是如果一时处理不过来,则此时

       我们就需要一个消息队列,让一部分先进行等待,其实就跟线程的任务队列差不多

       

        spark-streaming其实就是一个个连续的rdd

        3.spark-streaming的操作

        <dependency>
          <groupId>org.apache.spark</groupId>
          <artifactId>spark-streaming_2.10</artifactId>
          <version>${spark.version}</version>
        </dependency>

  • 相关阅读:
    test
    设置section的距离
    UISearchBar的应用
    Centos6.6 系统优化
    Linux系统之间文件传输 scp 命令
    MySQL 数据库安装
    AWS中国EC2 公网IP登录免pemKEY修改shh 配置文件
    Ubuntu 16.04 Chrome浏览器安装flash player插件
    Centos6.6 yum源更新
    qume-kvm 命令管理
  • 原文地址:https://www.cnblogs.com/wnbahmbb/p/6291608.html
Copyright © 2020-2023  润新知