• Spark程序本地运行


    Spark程序本地运行

     

    本次安装是在JDK安装完成的基础上进行的!  SPARK版本和hadoop版本必须对应!!!

    spark是基于hadoop运算的,两者有依赖关系,见下图:

    前言:

    1.环境变量配置:

    1.1 打开“控制面板”选项

    1.2.找到“系统”选项卡

    1.3.点击“高级系统设置”

    1.4.点击“环境变量”

    2.新建和编辑环境变量

    1.下载hadoop-2.6.0.tar.gz文件,并解压在本地

    1.1 新建环境变量上配置

    HADOOP_HOME
    D:JAVAhadoop

    1.2 修改PATH路径

    $HADOOP_HOME/bin; 

    2.下载scala-2.10.6.zip文件,并解压在本地

    2.1 新建环境变量上配置

    SCALA_HOME
    D:JAVAscala

    2.2 修改PATH路径

     %SCALA_HOME%in;%SCALA_HOME%jrein; 

    3.下载spark-1.6.2-bin-hadoop2.6.tgz文件,并解压在本地

    3.1 新建环境变量上配置

     SPARK_HOME

     D:JAVAspark_homein 

    3.2 修改PATH路径

    PATH
    
    $SPARK_HOME/bin;

    4.下载scala-IDE.zip文件,并解压在本地

    新建一个工程,修改library:

    Scala library一定要是:2.10.X

    新建一个自己的library:添加一个Jar文件(${spark_home}/lib)

    下跟Word Count代码

    复制代码
    package com
    
    import org.apache.spark.SparkConf
    import org.apache.spark.api.java.JavaSparkContext
    import org.apache.spark.SparkContext
    
    /**
     * 统计字符出现次数
     */
    object WordCount {
      def main(args: Array[String]): Unit = {
             
             System.setProperty("hadoop.home.dir", "D:\JAVA\hadoop");
             val sc = new SparkContext("local", "My App")  
             val line = sc.textFile("/srv/1.txt")
         
             line.map((_, 1)).reduceByKey(_+_).collect().foreach(println)
         
             sc.stop()
        println(111111)
      }
    }
    复制代码

     hadoop下载点击这里

     spark下载点击这里

     scala安装包,scala IDE下载点击这里

  • 相关阅读:
    2017.12.13T19_B2_6.4内部类
    2017.12.13T19_B2_6.3内部类
    python--spider模拟登录
    Redis数据库
    python--spider验证码
    python--Selenium(动态渲染页面爬取)
    python--Ajax
    python绘图实例
    python绘图
    Numpy库收尾(20190806)
  • 原文地址:https://www.cnblogs.com/csguo/p/7800417.html
Copyright © 2020-2023  润新知