简介:
1、spark streaming是spark中一个组件,基于spark core构建,用于流式数据的处理
2、可以和核心、sql混合编程
3、注意
1、可接收kafka、flume、hdfs的数据
2、分有状态转换(前后数据有关系,如叠加)和无状态转化(前后数据无关)
1、依赖
<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>2.1.0</version> </dependency>
2.1、启动nc
nc -lk 8888
2.2、编码并启动
def 套接字文本流(): Unit ={ val conf = new SparkConf().setMaster("local[*]").setAppName("")//并发度不为1 val sc = new StreamingContext(conf,Seconds(2)) val words = sc.socketTextStream("s101",8888) val word = words.flatMap(_.split(" ")) val pars = word.map((_,1)) val dest = pars.reduceByKey(_+_) dest.print() sc.start() sc.awaitTermination() }