• hadoop安装


    1.修改主机名和用户名 
    1.1 创建用户 
    在开始时,建议创建一个单独的用户Hadoop以从Linux文件系统隔离Hadoop文件系统。按照下面给出的步骤来创建用户: 

    $ useradd hadoop
    $ passwd hadoop
    密码设置为123456

    1.2 设置主机名
    修改主机名 vim /etc/sysconfig/network
    把HOSTNAME后的名称,修改为 master,如果有其他节点,分别修改为slave1 、slave2 ...

    1.3 节点间互相访问 
    执行vim /etc/hosts ,在末尾加上:
    192.168.30.150 master
    如果是分布式,还需要加上:
    192.168.30.151 slave1
    ...

    2.配置SSH无密码连接
    2.1 关闭防火墙 
    永久关闭防火墙:
    执行:chkconfig iptables off

    2.2 查看SSH是否安装 
    执行:
    yum install ssh
    yum install rsync   (rsync是一个远程数据同步工具)

    启动SSH服务命令:
    service sshd restart
    检查是否安装成功,执行:
    rpm -qa | grep openssh 
    rpm -qa | grep rsync

    2.3 生成SSH公钥 
    首先在主节点上(以hadoop用户)执行:
    ssh-keygen -t rsa  遇到提示回车
    生成公钥后,需要发送至本机的authorized_keys的列表,执行:
    ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@master 
    如果是完全分布式安装,需要把公钥复制到其他节点中,执行:
    ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@slave1
    ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@slave2
    ...  

    2.3 验证安装 
    hadoop用户执行:
    ssh master 如果没有出现输入密码提示则安装成功,否则需要执行:
    chmod 700 /home/hadoop/.ssh
    chmod 644 /home/hadoop/.ssh/authorized_keys

    3.安装JDK
    3.1 卸载JDK
    查询已安装的JDK版本:
    执行:rpm -qa | grep jdk
    卸载命令:
    执行:yum -y remove xxx     (xxx是查询后的jdk名称) 

    3.2 安装JDK
    下载jdk到本地,解压:
    tar -xzvf jdk-xxx.tar.gz
    配置环境变量,vim /etc/profile 后追加:
    export JAVA_HOME=/opt/jdk1.8.0_121
    export PATH=$PATH:$JAVA_HOME/bin
    立即生效,执行:
    source /etc/profile 

    3.2 验证安装
    执行: 
    java -version 

    4.配置Hadoop
    4.1 下载解压 (hadoop用户)
    使用时2.6.0-cdh5.6.0版本,放在/opt文件下:
    tar -zxvf hadoop-2.6.0-cdh5.6.0

    4.2 修改配置文件 (hadoop用户)
    (1)修改hadoop-env.sh ,文件结尾追加:
     export JAVA_HOME=/opt/jdk1.8.0_121
     export HADOOP_HOME=/opt/hadoop-2.6.0-cdh5.6.0

     (2)修改core-site.xml ,core-site.xml文件中包含如读/写缓冲器用于Hadoop的实例的端口号的信息,分配给文件系统存储,用于存储所述数据存储器的限制和大小。打开core-site.xml 并在<configuration>,</configuration>标记之间添加以下属性:

    <configuration>
     
       <property>
          <name>fs.default.name </name>
          <value> hdfs://localhost:9000 </value> 
       </property>
     
    </configuration>
     

    (3)修改hdfs-site.xml ,文件中包含如复制数据的值,NameNode路径的信息,本地文件系统的数据节点的路径。这意味着是存储Hadoop基础工具的地方:

    <configuration>
      <property>
        <name>dfs.replication</name>
        <value>1</value>
      </property>
      <property>
        <name>dfs.name.dir</name>
        <value>/opt/hdfs/name</value>
      </property>
      <property>
        <name>dfs.data.dir</name>
        <value>/opt/hdfs/data</value>
      </property>
    </configuration>
     

     

    (4)修改mapred-site.xml ,该项配置指明了MapReduce计算框架基于YARN进行工作:

    <configuration>
      <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
      </property>
    </configuration
     

    (5)修改yarn-site.xml ,该项配置指明了ResourceManager服务的主机名和端口号:

    <configuration>
      <property>
        <name>yarn.resourcemanager.address</name>
        <value>master:8080</value>
      </property>
      <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:8082</value>
      </property>
      <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
      </property>
      <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
      </property>
    </configuration>
     

    (6)修改slaves :
    修改为 master .
    如果是完全分布模式需要加上:
    slave1
    slave2
    ... 
    然后利用scp命令将安装文件夹分发到其他节点相同路径下:
    scp -r /opt/hadoop-2.6.0-cdh5.6.0 hadoop@slave1:/opt 
    scp -r /opt/hadoop-2.6.0-cdh5.6.0 hadoop@slave2:/opt  
     

    4.3 配置环境变量 (root用户,所有节点都需要执行)
    修改 vim /etc/profile 后追加:
    export HADOOP_HOME=/opt/hadoop-2.6.0-cdh5.6.0
    export PATH=$PATH:$HADOOP_HOME/bin
    立即生效,执行:
    source /etc/profile 

    5.格式化HDFS
    第一次启动时,必须先将HDFS格式化,执行:
    hadoop namenode -format 

    6.启动Hadoop
    首先root用户赋予hadoop执行权限:
    chmod +x -R /opt/hadoop-2.6.0-cdh5.6.0/sbin
    启动命令,hadoop用户执行:
    ./opt/hadoop-2.6.0-cdh5.6.0/sbin/start-all.sh

    使用jps,查看经常名称:

    29072 Jps
    26977 NodeManager
    26885 ResourceManager
    26567 DataNode
    26477 NameNode
    26750 SecondaryNameNode
  • 相关阅读:
    数据比赛实现的细节
    matlab 构建数据集实用 api
    matlab 构建数据集实用 api
    新技能 get —— 如何校验 md5(windows)
    新技能 get —— 如何校验 md5(windows)
    中间件 —— 消息中间件(MOM)
    中间件 —— 消息中间件(MOM)
    详细说明svn分支与合并---命令行
    SVN 分支及合并的介绍和实践---命令行
    SVN中的Branches分支以及Merge 应用举例
  • 原文地址:https://www.cnblogs.com/peng-lan/p/9605188.html
Copyright © 2020-2023  润新知