• Hadoop-HDFS


    课程软件存放目录

    hadoop/hadoop

    /home/hadoop

      software:存放安装的软件包

      app:存放的是所有软件的安装目录

      data:存放的是课程中所有使用的测试数据目录

      source:存放的是软件源码目录,spark

    Hadoop环境搭建
    1)下载Hadoop

      http://archive.cloudera.com/cdh5/cdh/5/

      2.6.0-cdh5.7.0

      wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz

    2)安装jdk

      jdk-7u51-linux-x64

      下载

      解压到app目录:tar -zxvf jdk-7u51-linux-x64.tar.gz - C ~/app/

      验证安装是否成功:~/app/jdk1.7.0_51/bin    ./java -version

      建议把bin目录配置到系统环境变量(~/bash_profile)中

        export JAVA_HOME=/home/hadoop/app/jdk1.7.0_51

        export PATH=$JAVA_HOME/bin:$PATH

    3)机器参数设置

      hostname:hadoop001

      修改机器名;vi /etc/sysconfig/network

        NETWORKIN=yes

        HOSTNAME=hadoop001

      设置ip和hostname的映射关系:/etc/hosts

        192.168.199.200 hadoop001

        127.0.0.1 localhost

       ssh免密码登录(本步骤可省略,但是后面重启hadoop进程时需要手工输入密码才行)

        ssh-keygen - t rsa

        cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

    4)hadoop配置文件修改:~/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop

      hadoop-env.sh

        export JAVA_HOME=/home/hadoop/app/jdk1.7.0_51

      core-site.xml

        <property>

          <name>fs.defaultFS</name>

          <value>hdfs://hadoop001:8020</value>

        </property>

        <property>

          <name>hadoop.tmp.dir</name>

          <value>/home/hadoop/app/tmp</value>

        </property>

      hdfs-site.xml

        <property>

          <name>dfs.replication</name>

          <value>1</value>

        </property>

    5)格式化HDFS

        注意:这一步操作,只是在第一次时执行,每次如果都格式化的话,那么HDFS上的数据就会被清空

        bin目录下:bin/hdfs namenode -format

    6)启动HDFS

      sbin/start-dfs.sh

      验证是否启动成功:

        jps

          Datanode

          SecondaryNameNode

          NameNode

        浏览器

          http://hadoop001:50070/

    7)停止HDFS

      sbin/stop-dfs.sh

    HDFS优缺点

      优点

        高容错

        适合批处理

        适合大数据处理

        可构建在廉价机器上

      缺点:

        低延迟的数据访问

        不适合小文件存储

  • 相关阅读:
    重学SQL Server 笔记(二)
    H.E mapreduce操作HBase(转载)
    Paxos算法能帮助我们做什么呢? 如下几点:
    Hive入门3–Hive与HBase的整合(转载)
    Hadoop的I / O管道剖析
    install jdk in ubuntu( please notice diffrent verstion and change the name in the configuration)
    sudo bin/hadoop namenode format
    asp.net + ext grid程序示例(提供源码下载)
    摩尔定律
    it's time go to sleep ,i will be continue!
  • 原文地址:https://www.cnblogs.com/liuffblog/p/12882280.html
Copyright © 2020-2023  润新知