• 新闻实时分析系统 基于IDEA环境下的Spark2.X程序开发


    1.Windows开发环境配置与安装

    下载IDEA并安装,可以百度一下免费文档。

    2.IDEA Maven工程创建与配置

    1)配置maven

     

    2)新建Project项目

     

    3)选择maven骨架

     

    4)创建项目名称

     

    5)选择maven地址

     

    6)生成maven项目

     

    7)选择scala版本

     

    8)新建Java 和 scala目录

     

    9)编辑pom.xml文件

    a)地址一

    b)地址二

    3.开发Spark Application程序并进行本地测试

    1)idea编写WordCount程序

    package com.spark.test

    import org.apache.spark.{SparkConf, SparkContext}

    object MyScalaWordCout {

      def main(args: Array[String]): Unit = {

        //参数检查

        if (args.length < 2) {

          System.err.println("Usage: MyWordCout   ")

          System.exit(1)

        }

        //获取参数

        val input=args(0)

        val output=args(1)

        //创建scala版本的SparkContext

        val conf=new SparkConf().setAppName("myWordCount")

        val sc=new SparkContext(conf)

        //读取数据

        val lines=sc.textFile(input)

        //进行相关计算

        val resultRdd=lines.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)

        //保存结果

        resultRdd.saveAsTextFile(output)

        sc.stop()

      }

    }

    4.Spark Application程序打包

    1)项目打jar包,参考之前讲过的项目打包方式

    2)spark-submit方式提交作业

    bin/spark-submit --master local[2] /opt/jars/sparkStu.jar hdfs://bigdata-pro01.kfk.com:9000/user/data/stu.txt

  • 相关阅读:
    5860. 从双倍数组中还原原数组
    5847. 找到所有的农场组
    5846. 找到数组的中间位置
    442. 数组中重复的数据
    1987. 不同的好子序列数目
    1986. 完成任务的最少工作时间段
    1985. 找出数组中的第 K 大整数
    1984. 学生分数的最小差值
    学习内容整合
    spring-DI和spring-mybatis整合
  • 原文地址:https://www.cnblogs.com/misliu/p/11188976.html
Copyright © 2020-2023  润新知