• [Spark Streaming_1] Spark Streaming 概述



    0. 说明

      Spark Streaming 介绍 && 在 IDEA 中编写 Spark Streaming 程序


    1. Spark Streaming 介绍


      Spark Streaming 是 Spark Core API 的扩展,针对实时数据流计算,具有可伸缩性、高吞吐量、自动容错机制的特点。

      数据源可以来自于多种方式,例如 Kafka、Flume 等等。

      使用类似于 RDD 的高级算子进行复杂计算,像 map 、reduce 、join 和 window 等等。

      最后,处理的数据推送到数据库、文件系统或者仪表盘等。也可以对流计算应用机器学习和图计算。

      

       在内部,Spark Streaming 接收实时数据流,然后切割成一个个批次,然后通过 Spark 引擎生成 result 的数据流。

      

       Spark Streaming 提供了称为离散流(DStream-discretized stream)的高级抽象,代表了连续的数据流。离散流通过 Kafka、 Flume 等源创建,也可以通过高级操作像 map、filter 等变换得到,类似于 RDD 的行为。内部,离散流表现为连续的 RDD。


     2. 在 IDEA 中编写 Spark Streaming 程序(Scala)

      【2.1 添加依赖】

    <?xml version="1.0" encoding="UTF-8"?>
    <project xmlns="http://maven.apache.org/POM/4.0.0"
             xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
             xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
    
        <groupId>com.share</groupId>
        <artifactId>myspark</artifactId>
        <version>1.0-SNAPSHOT</version>
    
        <properties>
            <spark.version>2.1.0</spark.version>
        </properties>
    
        <dependencies>
            <dependency>
                <groupId>org.apache.spark</groupId>
                <artifactId>spark-core_2.11</artifactId>
                <version>${spark.version}</version>
            </dependency>
            <dependency>
                <groupId>junit</groupId>
                <artifactId>junit</artifactId>
                <version>4.12</version>
            </dependency>
            <dependency>
                <groupId>com.alibaba</groupId>
                <artifactId>fastjson</artifactId>
                <version>1.2.47</version>
            </dependency>
            <dependency>
                <groupId>mysql</groupId>
                <artifactId>mysql-connector-java</artifactId>
                <version>5.1.17</version>
            </dependency>
            <dependency>
                <groupId>org.apache.spark</groupId>
                <artifactId>spark-sql_2.11</artifactId>
                <version>${spark.version}</version>
            </dependency>
            <dependency>
                <groupId>org.apache.spark</groupId>
                <artifactId>spark-hive_2.11</artifactId>
                <version>${spark.version}</version>
            </dependency>
            <dependency>
                <groupId>org.apache.spark</groupId>
                <artifactId>spark-mllib_2.11</artifactId>
                <version>${spark.version}</version>
            </dependency>
            <dependency>
                <groupId>org.apache.hive</groupId>
                <artifactId>hive-exec</artifactId>
                <version>2.1.0</version>
            </dependency>
            <dependency>
                <groupId>org.apache.hive</groupId>
                <artifactId>hive-jdbc</artifactId>
                <version>2.1.0</version>
            </dependency>
            <dependency>
                <groupId>org.apache.spark</groupId>
                <artifactId>spark-streaming_2.11</artifactId>
                <version>${spark.version}</version>
            </dependency>
        </dependencies>
        
    </project>

      【2.2 编写代码】

    package com.share.sparkstreaming.scala
    
    import org.apache.spark.SparkConf
    import org.apache.spark.streaming.{Seconds, StreamingContext}
    
    /**
      * Spark Streaming 的 Scala 版 Word Count 程序
      */
    object SparkStreamingScala1 {
      def main(args: Array[String]): Unit = {
    
        val conf = new SparkConf()
        conf.setAppName("Streaming")
        // 至少2 以上
        conf.setMaster("local[2]")
    
        // 创建 Spark Streaming Context ,间隔 1 s
        val sc = new StreamingContext(conf , Seconds(1))
    
        // 对接 socket 文本流
        val lines = sc.socketTextStream("s101", 8888)
        val words = lines.flatMap(_.split(" "))
        val pair = words.map((_,1))
        val rdd = pair.reduceByKey(_+_)
    
        // 打印结果
        rdd.print()
    
        // 启动上下文
        sc.start()
    
        // 等待停止
        sc.awaitTermination()
      }
    }

      【2.3 修改 Log4j 日志输出级别】

      

      【2.4 启动服务器 s101 的 nc】

      nc -lk 8888

       【2.5 运行程序并验证】

      略


    3. 在 IDEA 中编写 Spark Streaming 程序(Java)

    package com.share.sparkstreaming.java;
    
    import org.apache.spark.SparkConf;
    import org.apache.spark.api.java.function.FlatMapFunction;
    import org.apache.spark.api.java.function.Function2;
    import org.apache.spark.api.java.function.PairFunction;
    import org.apache.spark.streaming.Durations;
    import org.apache.spark.streaming.api.java.JavaDStream;
    import org.apache.spark.streaming.api.java.JavaPairDStream;
    import org.apache.spark.streaming.api.java.JavaStreamingContext;
    import scala.Tuple2;
    import java.util.Arrays;
    import java.util.Iterator;
    
    /**
     * Spark Streaming 的 Scala 版 Word Count 程序
     */
    public class WordCountStreamingJava1 {
        public static void main(String[] args) throws InterruptedException {
            SparkConf conf = new SparkConf();
            conf.setAppName("Streaming");
            conf.setMaster("local[*]");
    
            // 创建 Spark Streaming Context ,间隔 2 s
            JavaStreamingContext sc = new JavaStreamingContext(conf, Durations.seconds(2));
            // 对接 socket 文本流
            JavaDStream<String> ds1 = sc.socketTextStream("s101", 8888);
    
            // 压扁
            JavaDStream<String> ds2 = ds1.flatMap(new FlatMapFunction<String, String>() {
                public Iterator<String> call(String s) {
                    return Arrays.asList(s.split(" ")).iterator();
                }
            });
            // 变换成对
            JavaPairDStream<String, Integer> ds3 = ds2.mapToPair(new PairFunction<String, String, Integer>() {
                public Tuple2<String, Integer> call(String s) throws Exception {
                    return new Tuple2<String, Integer>(s, 1);
                }
            });
            // 聚合
            JavaPairDStream<String, Integer> ds4 = ds3.reduceByKey(new Function2<Integer, Integer, Integer>() {
                public Integer call(Integer v1, Integer v2) throws Exception {
                    return v1 + v2;
                }
            });
            
            // 打印结果
            ds4.print();
            // 启动上下文
            sc.start();
            // 等待停止
            sc.awaitTermination();
        }
    }

  • 相关阅读:
    SQL性能优化(不断总结)
    字符编码:区位/国标(gb2312、gbk)/机内码/ASCII/ANSI/Big5
    计算机中信息编码
    删除sybase一列报错:The 'select into' database option is not enabled for database.....
    常用Oracle函数(From OTN)
    常用正则
    剖析Windows的消息运行机制 (学习一)
    服务器响应码及解释
    了解注册表结构
    Windows消息大全收藏
  • 原文地址:https://www.cnblogs.com/share23/p/9833678.html
Copyright © 2020-2023  润新知