• 在Spark上运行WordCount程序


    1.编写程序代码如下:

    Wordcount.scala

    package Wordcount
    import org.apache.spark.SparkConf
    import org.apache.spark.SparkContext
    import org.apache.spark.SparkContext._
    
    
    /**
     * @author hadoop
     * 统计字符出现个数
     *
     */
    
    object Wordcount {
      def main(args: Array[String]) {
        if(args.length < 1) {
          System.err.println("Usage: <file>")
          System.exit(1)
        }
        val conf = new SparkConf()
        val sc = new SparkContext(conf)
        //SparkContext 是把代码提交到集群或者本地的通道,我们编写Spark代码,无论是要本地运行还是集群运行都必须有SparkContext的实例
        val line = sc.textFile(args(0))
        //把读取的内容保存给line变量,其实line是一个MappedRDD,Spark的所有操作都是基于RDD的
        line.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect.foreach(println)
        sc.stop
      }
    }

    2.将程序打包成wordcount.jar

    3.编写wordcount.sh脚本

    #!/bin/bash
    
    cd $SPARK_HOME/bin
    spark-submit 
    --master spark://192.168.1.154:7077 
    --class Wordcount.Wordcount   
    --name wordcount 
    --executor-memory 400M 
    --driver-memory 512M 
    /usr/local/myjar/wordcount.jar 
    hdfs://192.168.1.154:9000/user/hadoop/wordcount.txt

    其中的wordcount.txt是要统计的文本。

    4.将wordcount.txt文件上传到hdfs中对应的目录,并启动Spark集群

    5.执行脚本

  • 相关阅读:
    模板语言的作用及实例
    模板语言
    轮播图实例
    render,render_to_redponse,locals,redirect重定向
    setting中三个重要参数
    python中的Celery基本使用
    python中的Redis基本使用
    DRF之JWT认证
    DRF之过滤排序分页异常处理
    DRF之权限和频率限制
  • 原文地址:https://www.cnblogs.com/gaopeng527/p/4366505.html
Copyright © 2020-2023  润新知