• HADOOP-集群搭建


    一、主机信息(配置每个虚拟机的/etc/hosts文件)

    HostName    IP ADDR
    
    bigdata111    192.168.1.111
    
    bigdata112    192.168.1.112
    
    bigdata113    192.168.1.113
    

    二、JAVA及HADOOP环境变量配置

    export JAVA_HOME=/opt/module/jdk1.8.0_212
    
    export PATH=$PATH:$JAVA_HOME/bin
    
    export HADOOP_HOME=/opt/module/hadoop-2.8.4
    
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

    三、 SSH配置(三台同时进行的)

    1、生成密钥

    2、复制公钥到每个主机

    3、复制公钥之后的结果

    bigdata111:

    bigdata112:

    bigdata113:

    四、集群部署规划

    五、配置文件

    配置文件在hadoop目录下的etc/hadoop文件夹中

    1、 core-site.xml

    <configuration>

    <!-- 指定HDFS中NameNode的地址 -->

    <property>

    <name>fs.defaultFS</name>

    <value>hdfs://bigdata111:9000</value>

    </property>

    <!-- 指定hadoop运行时产生文件的存储目录 -->

    <property>

    <name>hadoop.tmp.dir</name>

    <value>/opt/module/hadoop-2.8.4/data/tmp</value>

    </property>

    </configuration>

    2、hdfs-size.xml

    <configuration>

    <!--数据冗余数-->

    <property>

    <name>dfs.replication</name>

    <value>3</value>

    </property>

    <!--secondary的地址-->

    <property>

    <name>dfs.namenode.secondary.http-address</name>

    <value>bigdata111:50090</value>

    </property>

    <!--关闭权限-->

    <property>

    <name>dfs.permissions</name>

    <value>false</value>

    </property>

    </configuration>

    3、yarn-size.xml

    <configuration>

    <!-- reducer获取数据的方式 -->

    <property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

    </property>

    <!-- 指定YARN的ResourceManager的地址 -->

    <property>

    <name>yarn.resourcemanager.hostname</name>

    <value>bigdata112</value>

    </property>

    <!-- 日志聚集功能使能 -->

    <property>

    <name>yarn.log-aggregation-enable</name>

    <value>true</value>

    </property>

    <!-- 日志保留时间设置7天(秒) -->

    <property>

    <name>yarn.log-aggregation.retain-seconds</name>

    <value>604800</value>

    </property>

    </configuration>

    4、mapred-site.xml

    首先复制mapred-site.xml.template为mapred-site.xml来作为配置文件

    <configuration>

    <!-- 指定mr运行在yarn上-->

    <property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

    </property>

    <!--历史服务器的地址-->

    <property>

    <name>mapreduce.jobhistory.address</name>

    <value>bigdata111:10020</value>

    </property>

    <!--历史服务器页面的地址-->

    <property>

    <name>mapreduce.jobhistory.webapp.address</name>

    <value>bigdata111:19888</value>

    </property>

    </configuration>

    5、 在hadoop-env.sh中添加JAVA的路径地址

    export JAVA_HOME=/opt/module/jdk1.8.0_212

    6、 编辑slaves文件

    bigdata111

    bigdata112

    bigdata113

    六、 使用scp发送Hadoop文件

    scp -r [文件] 用户@主机名:绝对路径

    例如:

        scp -r /opt/module/hadoop-2.8.4 root@bigdata112:/opt/module/

    七、 格式化hdfs

    (在NameNode上格式化,如果之前格式化一次,要先删除hadoop文件夹的data文件夹)

    hdfs namenode -format  //确保当前用户有创建文件目录的权限

    八、 启动集群

    1、bigdata111(即NameNode)启动命令

    start-dfs.sh

    2、bigdata112(即ResourceManager)启动命令

    start-yarn.sh

    九、 结果

    1、 bigdataa111进程

    2、 bigdata112进程

    3、 bigdata113进程

    4、 namenode网页(HDFS端口:50070  YARN端口: 8088)
     
  • 相关阅读:
    2013-06-28,“万能数据库查询分析器”在中关村本月数据库类下载排行中重返前10位
    Oracle 存储过程
    强化学习精要:核心算法与TensorFlow实现
    深入理解TensorFlow:架构设计与实现原理
    Vue.js实战
    TensorFlow机器学习实战指南
    深入浅出React和Redux
    Flutter技术入门与实战
    TensorFlow:实战Google深度学习框架
    深度学习:一起玩转TensorLayer
  • 原文地址:https://www.cnblogs.com/kwzblog/p/12718238.html
Copyright © 2020-2023  润新知