Spark Streaming 概述

1.Spark Streaming 概述

　　Spark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多，例如：Kafka、

Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语

如：map、reduce、join、window 等进行运算。而结果也能保存在很多地方，如 HDFS，数据库等。

另外 Spark Streaming 也能和 MLlib（机器学习）以及 Graphx 完美融合。

　　和 Spark 基于 RDD 的概念很相似，Spark Streaming 使用离散化流(discretized stream)作为抽

象表示，叫作 DStream。DStream 是随时间推移而收到的数据的序列。在内部，每个时间区间收

到的数据都作为 RDD 存在，而 DStream 是由这些 RDD 所组成的序列(因此得名“离散化”)。

　　DStream 可以从各种输入源创建，比如 Flume、Kafka 或者 HDFS。创建出来的 DStream 支

持两种操作，一种是转化操作(transformation)，会生成一个新的 DStream，另一种是输出操作(output

operation)，可以把数据写入外部系统中。DStream 提供了许多与 RDD 所支持的操作相类似的操

作支持，还增加了与时间相关的新操作，比如滑动窗口。

1.易用

2.容错

3.易整合到 Spark 体系

　　　　　　　　　　　　DStream ：Discretized Stream 离散化流

相关阅读:
线程&进程
C#入门基础
.Net GC垃圾收集机制(下)
.Net GC垃圾收集机制(上)
GAC的理解及其作用
C# DES加密，KEY和IV不同设置的写法
常见加密算法简析
密码学
数字签名是什么？（数字证书）
加密算法和MD5等散列算法的区别

原文地址：https://www.cnblogs.com/LXL616/p/11155039.html