spark streaming是基于Apache spark核心API构建的一套并发流处理库,其对实时流数据的处理具备可扩展性、高吞吐量和可容错性等特点。
spark streaming输入数据的来源既可以是kafka、flume、Twitter、zeroMQ、Kinesis等消息队列系统,也可以是传统的TCP套接字传输的原生数据。
工作机制:spark streaming接受实时的输入数据流,并将数据分割成批数据batches供spark核心系统处理,经spark系统处理数据后,得到最终的结果批数据。
spark streaming提供了一个名为离散流(Discretized Stream,简称DStream)的高级系统抽象,用于表示连续的数据流。在系统内部,DStream由一系列的RDD构成。