• Hadoop学习00:系统配置


    环境:

      ubuntu 13.04, hadoop 0.20.2, jdk1.7

    结点分配情况:

      master(NameNode), backup(Secondary NameNode), slave(DataNode)。配置/etc/hosts表(hostname)

    1. 安装java环境和hadoop

      将压缩包解压到某位置,配置/etc/profile文件。

    2. 全分布配置过程:(参考Hadoop in Action)

      1. 定义公共帐号hadoop-user

      2. ssh安装,生成并分配ssh密钥对。分配公钥的相关文件为[hadoop-user@master]~/.ssh/know_hosts。实现master在backup和slave上的无密钥登录。

      3. 全分布模式,配置conf/下的core-site.xml, mapred-site.xml, hdfs-site.xml, masters, slaves文件。

    3. 启动hadoop

      1. 格式化namenode

        [hadoop-user@master]bin/hadoop namenode -format

      2. 启动

        [hadoop-user@master]bin/start-all.sh

    4. 运行测试程序wordcount

      1. 写入数据

        hadoop dfs -put ~/input/* input

        问题:could only be replicated to 0 nodes, instead of 1

          关防火墙:sudo ufw disable

      2. 执行程序

        /bin/hadoop jar hadoop-*examples.jar wordcount input output

        问题:终端无输出

          离开安全模式:hadoop dfsadmin -safemode leave

          /etc/hosts:每一个节点只绑定固定ip

    5. 检测运行状态

      网页方式:master:50070/dfshealth.jsp

      命令行方式:hadoop dfsadmin -report

     6. 管理技巧

      有时候需要在全局模式和伪分布模式下频繁切换,方便程序的调试。结构如下:

      将不同模式下的配置文件存放在conf.cluster、conf.pseudo等目录下,然后通过命令ln -s conf.pseudo/ conf建立一个超链接,方便的切换

    配置仅仅是艰难征程的第一步,更重要的是理解MapReduce的编程模式,并应用到机器学习的相关算法中去

  • 相关阅读:
    spring mvc+ELK从头开始搭建日志平台
    java分布式系统开关功能设计(服务升降级)
    可伸缩性架构常用技术
    大众点评订单系统分库分表实践
    分布式缓存--系列1 -- Hash环/一致性Hash原理
    Netty原理剖析
    一个轻量级分布式 RPC 框架 — NettyRpc
    HDU 2583 permutation
    HDU 2573 Typing
    c语言中逗号运算符和逗号表达式
  • 原文地址:https://www.cnblogs.com/zjgtan/p/3065054.html
Copyright © 2020-2023  润新知