• Hdoop入门


    一、背景

    1、起源

    MapReduce编程模型的思想来源于函数式编程语言Lisp,由Google公司于2004年提出并首先应用于大型集群。同时,Google也发表了GFS、BigTable等底层系统以应用MapReduce模型。在2007年,Google’s MapReduce Programming Model-Revisted论文发表,进一步详细介绍了Google MapReduce模型以及Sazwall并行处理海量数据分析语言。Google公司以MapReduce作为基石,逐步发展成为全球互联网企业的领头羊。

    2、项目起源和发展

    Hadoop作为Apache基金会资助的开源项目,由Doug Cutting带领的团队进行开发,基于Lucene和Nutch等开源项目,实现了Google的GFS和Hadoop能够稳定运行在20个节点的集群;2006年1月,Doug Cutting加入雅虎公司,同年2月Apache Hadoop项目正式支持HDFS和MapReduce的独立开发。同时,新兴公司Cloudera为Hadoop提供了商业支持,帮助企业实现标准化安装,并志愿贡献社区。Hadoop的最新版本是0.21.0,说明其还在不断完善发展之中。

    二、Hadoop基础原理

    1、定义

    Hadoop原来是Apache Lucene下的一个子项目,它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。

    2、组成

    Hadoop由分布式存储HDFS和分布式计算MapReduce两部分组成。HDFS是一个master/slave的结构,就通常的部署来说,在master上只运行一个Namenode,而在每一个slave上运行一个Datanode。MapReduce是Google的一项重要技术,它是一个编程模型,用以进行大数据量的计算。MapReduce的名字源于这个模型中的两项核心操作:Map和Reduce。Map是把一组数据一对一的映射为另外的一组数据,Reduce是对一组数据进行归约,映射和归约的规则都由一个函数指定。

    三、国内外应用

    1、国外应用

    2008年2月,雅虎宣布搭建出世界上最大的基于Hadoop的集群系统—Yahoo! Search Webmap,另外还被广泛应用到雅虎的日志分析、广告计算、科研实验中;Amazon的搜索门户A9.com中的商品搜索的索引生成就是基于Hadoop完成的;互联网电台和音乐社区网站Last.fm使用Hadoop集群运行日志分析、A/B测试评价、AdHoc处理和图表生成等日常作业;著名SNS网站Facebook用Hadoop构建了整个网站的数据仓库,它目前有320多台机器进行网站的日志分析和数据挖掘。 UC Berkeley等著名高校也对Hadoop进行应用和研究,以提高其整体性能,包括Matei Zaharia等人改进了Hadoop的推测式执行技术并发表了Improving MapReduce Performance in Heterogeneous Environment;Tyson Condie等人改进了MapReduce体系,允许数据在操作之间用管道传送,开发了Hadoop Online Prototype(HOP)系统,并发表了MapReduce Online。

    2、国内应用

    2008年之后,国内应用和研究Hadoop的企业也越来越多,包括淘宝、百度、腾讯、网易、金山等。淘宝是国内最先使用Hadoop的公司之一;百度在Hadoop上进行广泛应用并对它进行改进和调整,同时赞助了HyperTable的开发。总之,互联网企业是Hadoop在国内的主要使用力量。同样的,很多科研院所也投入到Hadoop的应用和研究中,包括中科院、清华大学、浙江大学和华中科技大学等。

    四、文档说明

    1、来源

    该文档在编写的过程中添加了hadoop自带的中文说明文档,同时也借鉴了网上一些朋友编写资料。主要目的就是将这里信息汇总,方便查阅和推广。

    2、环境

    该文档中涉及的例子我采用的都是Linux操作系统、Apache发布的Hadoop版本0.20.2、JDK使用的是1.6,Hive使用的是0.5、HBase使用的是0.20.5

    Hadoop入门(二)——安装

    一、安装准备

    1、所需软件

    hadoop 0.20.2地址:http://www.apache.org/dist/hadoop/core/hadoop-0.20.2/

    JDK版本:jdk-6u26-linux-i586.rpm.bin (必须是1.6)

    操作系统:CentOS

    三台机器:10.2.33.151(master),10.2.33.152(slave),10.2.33.153(slave)

    二、安装操作

    1、软件安装

    拷贝以上文件到Linux的“/opt/”目录下。

    安装JDK,此步省略……。

    解压hdaoop:tar -zxvf hadoop-0.20.2.tar.gz

    配置151机器可以通过SSH直接访问152和153。

    2、系统SSH配置

    在151、152、153三台机器上分别执行以下操作:

    ssh-keygen -t dsa

    直接回车,完成后会在~/.ssh/生成两个文件:id_dsa 和id_dsa.pub。这两个是成对出现,类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys文件):

    $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys。

    注:若想多台机器登陆一台机器,则将3台机器的id_dsa.pub合并为1个authorized_keys,换行分割即可。

    完成后可以实现无密码登录:

    $ ssh root@IP

    3、系统环境变量配置

    JAVA_HOME=/usr/java/jdk1.6.0_26

    CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:$CLASSPATH

    HADOOP_HOME=/opt/hadoop-0.20.2

    PATH=$JAVA_HOME/bin:$HOME/bin:$HADOOP_HOME/bin:$HIVE_HOME/bin:$PATH

    export PATH HADOOP_HOME CLASSPATH JAVA_HOME

    最后记得source /etc/profile生效。

    4、系统HOSTS配置

    修改ect/hosts配置文件,内容如下:

    127.0.0.1       localhost

    10.2.33.151     test-01

    10.2.33.152     test-02

    10.2.33.153     test-03

    注:以上hosts信息很重要,每台机器都要配置,test-01为服务器名

    5、Hadoop配置

    修改/opt/hadoop-0.20.2/conf/目录下的master文件,内容如下:

    10.2.33.151

    修改/opt/hadoop-0.20.2/conf/目录下的slaves文件,内容如下:

    10.2.33.152

    10.2.33.153

    修改/opt/hadoop-0.20.2/conf/hadoop-env.sh文件的环境变量:

    # The java implementation to use.  Required.

    export JAVA_HOME=/usr/java/jdk1.6.0_26

    拷贝/opt/hadoop-0.20.2/src/core/core-default.xml到/opt/hadoop-0.20.2/conf/core-site.xml,修改部分内容如下:

    <property>

      <name>hadoop.tmp.dir</name>

      <value>/hadoopdata</value>

    </property>

    <property>

      <name>fs.default.name</name>

      <value>hdfs://10.2.33.151:9000</value>

    </property>

    拷贝/opt/hadoop-0.20.2/src/hdfs/hdfs-default.xml到/opt/hadoop-0.20.2/conf/hdfs-site.xml配置文件,内容不变。

    拷贝/opt/hadoop-0.20.2/src/mapred/mapred-default.xml到/opt/hadoop-0.20.2/conf/mapred-site.xml配置文件,修改部分内容如下:

    <property>

      <name>mapred.job.tracker</name>

      <value>10.2.33.151:9001</value>

    </property>

    将/opt/hadoop-0.20.2拷贝到10.2.33.152和10.2.33.153对应的目录下。将/ect/profile和/etc/hosts也拷贝到152和153机器上。注意profile需要做生效操作。建议打包拷贝或者scp拷贝。

    四、初始配置

    1、格式化HDFS文件系统

    进入/opt/hadoop-0.20.2/bin目录。执行:

    hadoop namenode –format

    2、启动/停止hadoop

    启动hadoop。执行:

    /opt/hadoop-0.20.2/bin/start-all.sh

    停止hadoop。执行:

    /opt/hadoop-0.20.2/bin/stop-all.sh

    3、查看hadoop信息

    在/opt/hadoop-0.20.2/bin目录下,执行:

    hadoop fs -ls /

    如果控制台返回结果,表示初始化成功。可以向里面录入数据。

    通过WEB查看hadoop

    查看集群状态:http://10.2.33.151:50070dfshealth.jsp

    查看JOB状态:http://10.2.33.151:50030/jobtracker.jsp

    五、注意事项

    1、hadoop的安装千万记得修改/etc/hosts文件,而且要把所有master和slaves的内容都配置进去,所有机器的host配置,在hadoop方面是一样的。

    2、master和slaves这2个配置文件可以不拷贝到152和153机器上,只在master上保存即可,保险起见,还是都拷贝下吧。

    3、通过web查看hadoop的时候,如果使用IE一些图形工具显示不出来,建议使用opera或是chrome。

  • 相关阅读:
    centos7安装supervisor
    redis4.0 cluster搭建
    网易cetus数据库中间件安装-读写分离版本
    mongodb副本集基于centos7部署
    C# 单例模式实现
    HttpWebRequest的GET和POST方法
    C#中$的用法
    判断一个表是否存在
    C# 继承的一些解释
    C# 虚方法和抽象方法
  • 原文地址:https://www.cnblogs.com/zhishan/p/3041724.html
Copyright © 2020-2023  润新知