• hadoop安装


      经暑假的几次安装失败,首先是对配置文件的原理不懂,对于虚拟机上的设备使用较少,linux命令处于忘记边缘。感谢林子雨老师的教程,来自于厦门大学数据实验室出品,相对与其他博客更加准确,适用性更强。
      hadoop两大核心,HDFS和MapReduce,完成海量数据的集群分布式处理。hadoop可以使用普通pc机构成一个集群,成本低,允许在linux平台。支持多种编程语言。典型应用为数据分析、数据实时查询、数据挖掘。MapReduce基于磁盘,spark基于内存,hive数据仓库用于企业数据分析,支持sql语句。Pig流数据处理,提供类似sql的查询语言Pig Latin。Oozie作业流调度系统,Zookeeper分布式协调服务,集群管理、Hbase分布式数据库,sqoop关系数据库与hadoop平台数据传递。Ambari部署工具,支持集群的供应、管理、监控。
    1、推荐Ubuntu轻量级。2、内存大于4g用于64位。3、双系统。
     
    关于Linux基础知识
    • shell是指“提供使用者使用界面”的软件(命令解析器)类似于DOS下的command和后来的cmd.exe。它接收用户命令然后调用相应的应用程序。
    • sudo命令。是Ubuntu中一种权限管理机制,管理员可以授权给一些普通用户去执行一下需要root权限执行的操作,当使用sudo命令时,一般输入当前用户密码。
    • shift键完成中英文切换
    • shift+ctrl+v/c复制,粘贴
    Hadoop安装方式
    • 单机模式:默认模式为非分布式模式(本机模式)无需进行其他配置即可运行非分布式即单java进程,方便进行调试。
    • 伪分布式模式:hadoop可以在单节点上以伪分布式的方式运行,hadoop进程以分离的Java进程来运行,节点既作为namenode也作为datanode。同时,读取的是HDFS中的文件。
    • 分布式模式:使用多个节点构成集群环境来运行hadoop。
    虚拟机:virtualbox
    如果选择的系统是64位Ubuntu系统,你们在安装虚拟机前,我们还要进入blos开启cpu的虚拟化。
     
    安装双操作系统
    • 制作安装u盘
    • 双系统安装
    Hadoop的安装与使用
    创建hadoop用户->SSH登录权限设置->安装Java环境->单机安装配置->伪分布式安装配置
    1、创建hadoop用户,增加名为hadoop的用户,首先按ctrl+alt+t打开终端窗口,输入如下命令创建新用户
    $sudo useradd-m hadoop -s/bin/bash
    上面这条命令创建了可以登陆的hadoop用户,并使用bin/bash作为shell
    接着使用如下命令设置密码,可见的设置为hadoop,按提示输入两次密码
    $sudo passwd hadoop
    可为hadoop用户增加管理员权限
    $sudo adduser hadoop sudo
     
    SSH登陆权限设置
    ssh是Secure shell的缩写,是建立在应用层和传输层基础上的安全协议。SSH是目前较可靠、专为远程登录会话和其他网络服务提供安全性的协议。ssh是由客户端和服务端的软件组成,服务端是一个守护进程(daemon),它在后台运行并响应来自客户端的连接请求,客户端包括ssh程序以及像scp(远程拷贝)、slogin(远程登陆)、sftp(安全文件传输)等其他的应用程序。
     
    配置SSH的原因
    Hadoop名称节点(NameNode)需要启动集群中所有机器的Hadoop守护进程,这个过程需要通过SSH登录来实现。Hadoop并没有提供SSH输入密码登录的形式。因此,为了能够顺利登录每台机器,需要将所有机器配置为名称节点可以无密码登录它们。
     
    安装Java环境
    可选择oracle的JDK,或是OpenJdk,可以在Ubuntu中直接通过命令安装OpenJDK7
    $sudo apt-get install openjdk-7-jre openjdk-7-jdk
    还需要配置java_home
     
    单价安装配置
    在虚拟机网络内下载Hadoop2安装文件,下载hadoop-2.x.y.tar.gz文件
    选择将Hadoop安装至/usr/local/中
    $sudo tar -zxf ~/下载/hadoop-2.6.0.tar.gz -C /usr/local         #解压到/usr/local
    $cd /usr/local/            #进入目录
    $sudo mv ./hadoop-2.6.0/ ./hadoop      #将文件夹名改为hadoop        
    $sudo chown -R hadoop:hadoop ./hadoop    #修改文件权限
     
    验证是否成功,成功会显示版本信息
    $cd /usr/local/hadoop
    $ ./bin/hadoop/version 
     
    伪分布式安装配置
    • 修改配置文件->初始化
    hadoop.tmp.dir临时文件存储目录,人工指定
    fs.defaultFS逻辑名称
    • 修改hdfs-site.xml
    dfs.replication副本,表示副本数量,伪分布式设置1
    dfs.namenode.name.dir表示本地磁盘目录,是存储fsimage文件的地方
    dfs.datanode.data.dir表示本地磁盘目录,HDFS数据存放block的地方
     
    三种命令方式的区别
    • hadoop fs 适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统
    • hadoop dfs只适用于HDFS文件系统
    • hdfs dfs 适用于HDFS文件系统
     推荐文章:
    1、制作Ubuntu系统u盘
    http://jingyan.baidu.com/article/59703552e0a6e18fc007409f.html
    2、双系统安装
     http://jingyan.baidu.com/article/dca1fa6fa3b905f1a44052bd.html
     
     
  • 相关阅读:
    TYVJ 2002 扑克牌 题解
    TYVJ P1933 绿豆蛙的归宿 题解(未完成)
    TYVJ-P1864 守卫者的挑战 题解
    HDU 4901 The Romantic Hero 题解——S.B.S.
    OpenJudge 8782 乘积最大——S.B.S
    COGS 08-备用交换机 题解——S.B.S.
    poj2186 Popular Cows 题解——S.B.S.
    高级c++头文件bits/stdc++.h
    #include <NOIP2010 Junior> 三国游戏 ——using namespace wxl;
    NOIP 2008提高组第三题题解by rLq
  • 原文地址:https://www.cnblogs.com/watm/p/9696757.html
Copyright © 2020-2023  润新知