• spark安装


     不跟hadoop在一个机器

    1、vim /etc/profile 

    export JAVA_HOME=/usr/local/jdk1.8.0_171
    export JRE_HOME=$JAVA_HOME/jre
    export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib:$CLASSPATH
    export PATH=$JAVA_HOME/bin:$PATH

    export SPARK_HOME=/data1/spark-2.3.1
    export PATH=$PATH:$SPARK_HOME/bin
    export SCALA_HOME=/usr/local/scala-2.12.6
    export PATH=$PATH:$SCALA_HOME/bin

    2、修改spark-env.sh

    cp spark-env.sh.template spark-env.sh
    vi spark-env.sh

    > export SPARK_SSH_OPTS="-p 21860"
    > export JAVA_HOME=/usr/local/jdk1.8.0_171
    > export SCALA_HOME=/usr/local/scala-2.12.6
    > export HADOOP_HOME=/data1/hadoop
    > export HADOOP_CONF_DIR=/data1/hadoop/etc/hadoop
    > export SPARK_MASTER_IP=spark1
    > export SPARK_WORKER_MEMORY=80g
    > export SPARK_WORKER_CORES=2
    > export SPARK_WORKER_INSTANCES=1

    3、生成slves

    spark1
    spark2
    spark3

    4、把/data1/spark-2.3.1和/data1/hadoop同步到另外几个机器

     5、启动并查看集群状态

    start-all.sh
    http://spark1:8080/

    查看某个机器:
    http://spark2:8081/
     

     6、测试脚本spark-shell。访问远程hadoop数据

    val file=sc.textFile("hdfs://namenode1:9000/hive/warehouse/test.db/test_log/test1.txt.gz")
    val rdd = file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)
    rdd.collect()
    rdd.foreach(println)
    
    :quit

    ===================

    下载java

    http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

    卸载centos自己带的jdk

    第一步:查看Linux自带的JDK是否已安装 (卸载centOS已安装的1.4)
    安装好的CentOS会自带OpenJdk,用命令 java -version ,会有下面的信息:
    java version "1.6.0"
    OpenJDK Runtime Environment (build 1.6.0-b09)
    OpenJDK 64-Bit Server VM (build 1.6.0-b09, mixed mode)
    最好还是先卸载掉openjdk,在安装sun公司的jdk.
    先查看 rpm -qa | grep java
    显示如下信息:
    java-1.4.2-gcj-compat-1.4.2.0-40jpp.115
    java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5
    卸载:
    rpm -e --nodeps java-1.4.2-gcj-compat-1.4.2.0-40jpp.115
    rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5
    还有一些其他的命令
    rpm -qa | grep gcj
    rpm -qa | grep jdk
    如果出现找不到openjdk source的话,那么还可以这样卸载
    yum -y remove java java-1.4.2-gcj-compat-1.4.2.0-40jpp.115
    yum -y remove java java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5
    <1># rpm -qa|grep jdk ← 查看jdk的信息或直接执行 
    或 
    # rpm -q jdk 
    或 
    # java -version 
    <2># rpm -qa | grep gcj ← 确认gcj的版本号 
    <3># yum -y remove java-1.4.2-gcj-compat ← 卸载gcj 
    
    第二步:安装JDK 
    <1>从SUN下载jdk-1_5_0_14-linux-i586-rpm.bin或jdk-1_5_0_14-linux-i586.bin 
    在/usr下新建java文件夹,将安装包放在/usr/java目录下 
    # mkdir /usr/java 
    <2>安装JDK 
    # cd /usr/java 
    ①jdk-1_5_0_14-linux-i586-rpm.bin文件安装 
    # chmod 777 jdk-1_5_0_14-linux-i586-rpm.bin ← 修改为可执行 
    # ./jdk-1_5_0_14-linux-i586-rpm.bin ← 选择yes同意上面的协议 
    # rpm -ivh jdk-1_5_0_14-linux-i586.rpm ← 选择yes直到安装完毕 
    ②jdk-1_5_0_14-linux-i586.bin文件安装 
    # chmod a+x jdk-1_5_0_14-linux-i586.bin ← 使当前用户拥有执行权限 
    # ./jdk-1_5_0_14-linux-i586.bin ← 选择yes直到安装完毕 

    rm -rf /usr/share/java/*

    cp -rf jdk***/* /usr/share/java

  • 相关阅读:
    初识ambari
    MySQL Split 函数
    行存储和列存储
    Hbase安装和错误
    mysql 常用自定义函数解析
    mysq l错误Table ‘./mysql/proc’ is marked as crashed and should be repaired
    MySql提示:The server quit without updating PID file(…)失败
    mysql 自定义函数
    hive 调优总结
    [css] line boxes
  • 原文地址:https://www.cnblogs.com/linn/p/4521739.html
Copyright © 2020-2023  润新知