• Spark 入门学习


    用到的软件:Hadoop-2.4.0、scala-2.10.4、spark-1.1.0

    jdk我用的1.6,支持哪些jdk可以从发放文档中查找

    一、预备工作

    修改主机名字(名字比ip好使)、安装Orcal版的jdk、关闭防火墙、配好ssh,此外python系统已经自带不用二外安装

    二、配置工作

    首先配置Hadoop 这个可以参考官方网站电接点配置http://hadoop.apache.org/docs/r2.5.1/hadoop-project-dist/hadoop-common/SingleCluster.html

    1、Hadoop2的配置文件在etc/hadoop目录下,需要修改的文件有core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、hadoop-env.sh、slaves

    • core-site.xml
    <configuration>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://master:9000</value>  //我的主节点的机名就叫做master
      </property> </configuration>
    • hdfs-site.xml
    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>1</value> //副本数量,一般设置为3个,但在这里,因为机子有限我只设置了一个
        </property>
       <property>
            <name>dfs.namenode.name.dir</name>
            <value>/home/zkpk/hadoop_name</value>
        </property>
      <property>
            <name>dfs.datanode.data.dir</name>
            <value>/home/zkpk/hadoop_data</value>
        </property> </configuration>
    • mapred-site.xml
    <configuration>
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value> //资源管理器指向yarn
        </property>
    </configuration>
    • yarn-site.xml
    <configuration>
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
    </configuration>
    • hadoop-env.sh
    修改该文件中的JAVA_HOME
    • slaves
    直接在文件中输入如下
    master
    slave

    详细的按需配置,可以到官方查看集群配置的方法
    到此Hadoop配置完成
    初始化完成之后可以使用sbin/start-all.sh启动集群,使用sbin/stop-all.sh结束集群
    2、scala 安装解压包之后,配置下环境变量即可

    3、安装spark

     解压好文件之后,需要到conf文件夹下修改一下配置文件slaves、spark-env.sh

    • slaves
    在该文件中填写如下内容(是两台主机的名字)
    master
    slave
    • spark-env.sh

    export JAVA_HOME=/usr/java/latest

    export SCALA_HOME=/opt/scala-2.10.4

    export HADOOP_PREFIX=/opt/hadoop-2.4.0

    export SPARK_MASTER_IP=master

    export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop

    export YARN_CONF_DIR=$HADOOP_PREFIX/etc/hadoop

     这里需要注意,有的时候这个spark-evn.sh不配置也不会出现问题,但有时候不配置就会出现如下问题

    4、配置环境变量

    使用命令 vi /etc/profile 注意是在root权限下才可以修改,当然也可以修改本地的环境便令 文件是主目录下的 .bash_profile

    使环境变量生效使用命令 source /etc/profile 使配置文件生效

    环境变量里的内容如下

    export JAVA_HOME=/usr/java/latest

    export SCALA_HOME=/opt/scala-2.10.4

    export HADOOP_PREFIX=/opt/hadoop-2.4.0

    export SPARK_HOME=/opt/spark-1.1.0-bin-hadoop2.4

    export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_PREFIX}/lib/native

    export HADOOP_OPTS="-Djava.library.path=$HADOOP_PREFIX/lib"

    export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop export YARN_CONF_DIR=$HADOOP_PREFIX/etc/hadoop

    export PATH=$PATH:$JAVA_HOME:$JAVA_HOME/bin:$HADOOP_PREFIX/bin:$SCALA_HOME/bin:$SPARK_HOME/bin

      最后要记得将配好的Hadoop、Scale、Spark、profile文件复制到slave节点上

  • 相关阅读:
    浅谈 java 比较器
    浅谈lambda表达式
    使用DateLocaleConverter和SimpleDateFormat实现字符串转换成日期
    myeclipse中运行tomcat报错java.lang.NoClassDefFoundError
    《谁说菜鸟不会数据分析》读书笔记(1)
    撰写报告要点
    分析报告_问题界定篇
    数据分析报告
    kaggle入门之Titanic生存预测
    pandas基础
  • 原文地址:https://www.cnblogs.com/wyhong/p/4086516.html
Copyright © 2020-2023  润新知