• hadoop2.5.2学习及实践笔记(一)—— 伪分布式学习环境搭建


    软件

      工具:vmware 10

      系统:centOS 6.5  64位

      Apache Hadoop: 2.5.2  64位

      Jdk:  1.7.0_75  64位

    安装规划

      /opt/softwares/       ************* 软件包路径

            /modules/   *************  软件安装路径

    安装准备

      1. 安装并配置jdk

    # cd /opt/softwares/       --进入到软件包目录

    # tar -zxvf jdk-7u75-linux-x64.tar.gz   --解压jdk tar包

    # mv jdk1.7.0_75/ /opt/modules/  --复制到软件安装目录

    # vi /etc/profile   --配置环境变量,在文件最后添加如下配置

    export JAVA_HOME=/opt/modules/jdk1.7.0_75
    export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
    export PATH=$PATH:$JAVA_HOME/bin

    # source /etc/profile  --使环境变量立即生效

    # java -version  --检查配置

      

      

      2. 创建用户账号

    # groupadd hadoop   --添加hadoop用户组

    # useradd -g hadoop hadoop  --添加hadoop用户并添加到hadoop组中

    # passwd hadoop  --为hadoop用户设置密码

      

    安装hadoop

      1. 解压hadoop

    # tar -zxvf hadoop-2.5.2.tar.gz  --解压tar包

    # mv hadoop-2.5.2 /opt/modules/  --复制到安装目录

    # cd /opt/modules/

    # chown -R hadoop:hadoop hadoop-2.5.2  --修改用户和组

      2. 配置环境变量

    # vi /etc/profile  
    
    export HADOOP_HOME=/opt/modules/hadoop-2.5.2
    export PATH=$PATH:$HADOOP_HOME/bin
    
    # source /etc/profile 
    # hadoop version  --检查配置
    Hadoop 2.5.2
    Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r cc72e9b000545b86b75a61f4835eb86d57bfafc0
    Compiled by jenkins on 2014-11-14T23:45Z
    Compiled with protoc 2.5.0
    From source with checksum df7537a4faa4658983d397abf4514320
    This command was run using /opt/modules/hadoop-2.5.2/share/hadoop/common/hadoop-common-2.5.2.jar
    
    # hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.2.jar pi 100 100 --解压后无需配置即可运行于独立模式下,例:计算π值

      3. 配置SSH免密码登陆  

      hadoop用户下执行

    $  ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

    $  cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

    $  chmod 644 authorized_keys  --权限修改为rw-r-r

      4. 配置hdfs

      a. 修改hadoop-2.5.2/etc/hadoop目录下配置文件

      > hadoop-env.sh

    # vi hadoop-env.sh

    export JAVA_HOME=/usr/java/jdk1.7.0_75  --显式配置JAVA_HOME,而非使用JAVA_HOME=${JAVA_HOME}

      >core-site.xml

    # vi core-site.xml

    <configuration>

        <property>      --指定文件系统及主机、端口

            <name>fs.defaultFS</name>

            <value>hdfs://localhost:9000</value>

        </property>

    </configuration>

     

      >hdfs-site.xml

    # vi hdfs-site.xml

    <configuration>

        <property>  --配置副本数量,默认为3,伪分布式下若不配置,则会提示副本数不足

            <name>dfs.replication</name>

            <value>1</value>

        </property>

    </configuration>

      b. 格式化文件系统

    $ mkdir -p /opt/data/hadoop/hdfs/name    --创建namenode文件存储目录

    $ mkdir -p /opt/data/hadoop/hdfs/data     --创建datanode数据存储目录

    $ vi hdfs-site.xml

    <property>   --默认存储在/tmp/hadoop-hadoop/dfs/name目录下,清空缓存时,集群数据丢失,且无法重建,后果非常严重
            <name>dfs.namenode.name.dir</name>
            <value>/opt/data/hadoop/hdfs/name</value>
    </property>
    <property>
            <name>dfs.datanode.data.dir</name>
            <value>/opt/data/hadoop/hdfs/data</value>
    </property>

    $ hdfs namenode format

      c. 启动namenodedatanode守护进程

    $ ./sbin/start-dfs.sh   --启动hdfs

    $ jps   --进程查看

    SecondaryNameNode   
    Jps
    DataNode
    NameNode

      通过访问localhost:50070访问namenode web页面

     

      5. 启动yarn

      a. 修改hadoop-2.5.2/etc/hadoop目录下配置文件

       > mapred-site.xml

    $ cp mapred-site.xml.template mapred-site.xml  --复制模板文件,并命名为mapred-sit.xml

    $ vi mapred-site.xml

    <property>   --local:本地作业运行器  classic:经典mapreduce框架  yarn:新框架

            <name>mapreduce.framework.name</name>

            <value>yarn</value>

    </property>

     

     

      >yarn-site.xml

    $ vi yarn-site.xml

    <property>

            <name>yarn.nodemanager.aux-services</name>

            <value>mapreduce_shuffle</value>

    </property>

      b. 启动yarn

    $ ./sbin/start-yarn.sh

    $ jps

    SecondaryNameNode   
    Jps
    DataNode
    NameNode
    ResourceManager
    NodeManager

      通过localhost:8088访问ResourceManager web页面

  • 相关阅读:
    python做一个数独小游戏
    通过进程快照枚举进程的信息
    单向链表 malloc与free
    指针常量&指向常量的指针
    变量在不同区域的默认初始值
    数组指针和指针数组
    堆的首地址和堆的指针
    创建对象时,系统会自动调用构造函数和析构函数
    对象所占内存的大小与首地址
    范磊 C++ 第8章 指针
  • 原文地址:https://www.cnblogs.com/zhaosk/p/4361516.html
Copyright © 2020-2023  润新知