• Hadoop入门(一)概念与单机安装


    一、hadoop的概念

    (1)什么是大数据

      大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。

    (2)hadoop的定义

      Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

      Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

    二、单机安装(Ubuntu14版)

    1、安装配置jdk

    A、在线安装:

     

    B、离线安装 

    1)下载jdk-7u80-linux-x64.tar.gz

      下载路径:http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html

      把离线包拷入到ubuntu的当前用户mk的software文件夹下,然后执行命令安装。


    2)执行命令
      mkdir ~/software
      tar -zxvf jdk-7u80-linux-x64.tar.gz
      mv jdk1.7.0_80/ software/jdk1.7.0_80

    C、配置JDK环境变量JAVA_HOME

    安装完jdk后,需要配置环境变量,把java变成系统内命令
    编辑/etc/profile文件来修改系统环境变量。

    1)配置环境变量

    执行命令(后面java.sh不要有空格,如‘java.sh ’,否则读不了配置文件)
      sudo gedit /etc/profile.d/java.sh

    打开/etc/profile文件在文件中添加如下配置
      export JAVA_HOME=/home/mk/software/jdk1.7.0_80
      export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
      export PATH=$JAVA_HOME/bin:$PATH

    注意:写配置值时,export语句的内容里面不要换行

    2)验证配置

    (1)使profile文件修改配置生效
      执行命令:source /etc/profile

       或者注销再登录当前用户

           执行命令:sudo reboot


    (2)验证java质量

         执行命令 :java -version


     

    2、安装hadoop

    A、下载解压hadoop安装包

    下载hadoop安装包hadoop-2.6.0.tar.gz

    下载路径:http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz

    B、拷贝到hadoop用户目录中,执行命令进行安装 

     执行命令
      tar xvf hadoop-2.6.0.tar.gz
      mv hadoop-2.6.0 software/

    C、修改hadoop环境变量配置

     执行命令(后面hadoop.sh不要有空格,如‘hadoop.sh ’,否则读不了配置文件)
      sudo gedit /etc/profile.d/hadoop.sh

       hadoop.sh的内容

    export HADOOP_HOME=/home/mk/software/hadoop-2.6.0
    export CLASSPATH=.:$HADOOP_HOME/share/hadoop/common/hadoop-common-2.6.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar:$CLASSPATH
    export PATH=$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH

      注意:写配置值时,export语句的内容里面不要换行

     D、验证配置

     1)使hadoop命令配置生效

       执行命令:source /etc/profile

      或注销再登录当前用户

      2) 验证:
      hadoop version

    3、启动Hadoop 

    A、进入到 /home/mk/soft/hadoop-2.6.0/etc/hadoop目录,查看配置文件
        执行命令: cd soft/hadoop-2.6.0/etc/hadoop/
        列出配置文件:  ls

    B、编辑/home/mk/soft/hadoop-2.6.0/etc/hadoop/hadoop-env.sh文件,修改参数信息

    执行命令:cd soft/hadoop-2.6.0/ etc/hadoop
                sudo gedit hadoop-env.sh 

    修改文件里面的export JAVA_HOME=${JAVA_HOME}为
    export JAVA_HOME=/home/hadoop/jdk1.7.0_80

     C、测试Hadoop环境可用性

      执行命令 :hadoop

    三、测试例子

    题目:使用hadoop自带的hadoop-mapreduce-examples-2.6.0.jar对某目录下的文档进行单词数的统计

    执行命令:

    #切换到用户目录

     cd /home/mk/

    #在用户目录下创建input目录
     mkdir input

     #复制hadoop的配置文件进入input
     cp $HADOOP_HOME/etc/hadoop/*.xml input/

     #统计input目录里面的以dfs前缀的单词,保存结果在output目录
     hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'

     #输出output目录的结果
     cat output/*

    结果:

  • 相关阅读:
    js scrollTop到达指定位置!
    ajax图片加载,complete
    OpenShift 集群搭建指南
    net core ef code first 使用步骤
    Web Api Json 序列化 属性被加上 k__BackingField 解决办法
    [ASP.NET MVC 5 高级编程] 第4章 模型
    [ASP.NET MVC 5 高级编程] 第3章 视图
    [Java学习笔记] Java核心技术 卷1 第六章 接口与内部类
    [Java学习笔记] Java核心技术 卷1 第五章 继承
    [Java学习笔记] Java核心技术 卷1 第四章 对象与类
  • 原文地址:https://www.cnblogs.com/maokun/p/7387795.html
Copyright © 2020-2023  润新知