• 3.环境搭建-Hadoop(CDH)集群搭建


    目录

    本文主要是在上节CentOS集群基础上搭建Hadoop集群。

    实验环境

    • Hadoop版本:CDH 5.3.6

    *本实验项目所需软件均可在百度网盘链接:http://pan.baidu.com/s/1dFeNR6h 密码:1zx4中获取。

    安装 Hadoop

    上传hadoop文件到/usr/local目录下

    rz

    这里写图片描述

    解压

    tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz

    删除tar包

    rm -rf hadoop-2.5.0-cdh5.3.6.tar.gz

    重命名 

    mv hadoop-2.5.0-cdh5.3.6 hadoop 

    设置环境变量

    vi ~/.bashrc
    export HADOOP_HOME=/usr/local/hadoop
    export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin

    这里写图片描述

    生效设置

    source ~/.bashrc
    • 1
    • 1

    测试

    hadoop
    hadoop version
    
    yarn
    yarn version

    这里写图片描述 
    这里写图片描述 
    这里写图片描述

    创建/usr/local/data目录 
    这里写图片描述

    配置文件

    修改core-site.xml文件

    cd /hadoop/etc/hadoop
    ls
    vi core-sie.xml

    这里写图片描述

    <property>
      <name>fs.default.name</name>
      <value>hdfs://sparkproject1:9000</value>
    </property>

    这里写图片描述

    修改hdfs-site.xml

    <property>
      <name>dfs.name.dir</name>
      <value>/usr/local/data/namenode</value>
    </property>
    <property>
      <name>dfs.data.dir</name>
      <value>/usr/local/data/datanode</value>
    </property>
    <property>
      <name>dfs.tmp.dir</name>
      <value>/usr/local/data/tmp</value>
    </property>
    <property>
      <name>dfs.replication</name>
      <value>2</value>
    </property>

    修改mapred-site.xml

    cp mapred-site.xml.template mapred-site.xml
    vi mapred-site.xml
    <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
    </property>

    修改yarn-site.xml

    <property>
      <name>yarn.resourcemanager.hostname</name>
      <value>sparkproject1</value>
    </property>
    <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
    </property>

    修改slaves

    sparkproject2
    sparkproject3

    sparkproject1是主节点,sparkproject2和sparkproject3是从节点

    在另外两台虚拟机上搭建hadoop

    在sparkproject1上使用scp命令将配置好的文件传输到另外两个虚拟机上

    cd /usr/local
    scp -r hadoop root@sparkproject2:/usr/local
    scp -r hadoop root@sparkproject3:/usr/local
    scp ~/.bashrc root@sparkproject2:~/
    scp ~/.bashrc root@sparkproject3:~/   

    在sparkproject2和sparkproject3上分别执行

    source ~/.bashrc

    在sparkproject2和sparkproject3的/usr/local目录下创建data目录

    cd /usr/local
    mkdir data

    启动hdfs集群

    格式化namenode 
    在sparkproject1上执行

    hdfs namenode –format

    启动集群

    start-dfs.sh

    查看是否启动成功 
    这里写图片描述

    这里写图片描述

    这里写图片描述

    在浏览器中输入sparkproject1:50070查看状态 
    这里写图片描述

    上传测试文件

    vi hello.txt
    Hello world !
    hdfs dfs -put hell.txt /hello.txt

    在网页端查看上传的文件 
    这里写图片描述

    这里写图片描述

    这里写图片描述

    启动yarn集群

    start-yarn.sh
    • 1
    • 1

    使用jps检查各节点启动状态,sparkproject1上启动ResourceManager,sparkproject2和sparkproject3节点上启动NodeManager 
    这里写图片描述

    这里写图片描述

    这里写图片描述

    在浏览器中输入sparkproject1:8088查看 
    这里写图片描述

    这里写图片描述

    至此,hadoop集群搭建完成,下一步将安装Hive

    更多文章:Spark大型电商项目实战:http://blog.csdn.net/u012318074/article/category/6744423

  • 相关阅读:
    linux时间设置相关
    tcp/ip协议和http协议
    redis和memcache的比较
    How to Display Image In Picturebox in VC++ from Iplimage and Mat
    关于技术与业务的理解
    怎样写出好代码——设计原则
    怎么写出好代码——坏味道
    linux 用户管理
    浅谈ajax
    浅析闭包和内存泄露的问题
  • 原文地址:https://www.cnblogs.com/wanghuaijun/p/6860877.html
Copyright © 2020-2023  润新知