• hadoop学习笔记叁--简单应用


    1、通过命令向HDFS传输文件

        上传:./hadoop fs -put hdfs.cmd (本地文件名) hdfs://主机名称:9000/

               hadoop fs -copyFromLocal ./hadoop-config.cmd(本地文件名) /user/(hadoop服务路径)

        下载:  ./hadoop fs -get   hdfs://主机名称:9000/hdfs.cmd

            hadoop fs -copyToLocal   /user/jdk-7u65-linux-i586.tar.gz (hadoop文件位置路径) /home/hadoop/app/(本地路径)

        在浏览器访问http://主机IP:50070,出现以下页面点击如图所示按钮,会看到上传的文件。

    2、执行hadoop自带mapreduce程序

        到hadoop-2.4.1/share/hadoop/mapreduce 目录下

        执行命令:./hadoop  jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar pi 5 5(jar的主类全路径)

    3、hadoop :hdfs 存放文件方式

        hadoop存放文件方式:切分存放,就是讲一个文件切分为数块,然后放到集群DATANODE中 ,通过NAMENODE来映射每个DATANODE中存放的数据

             相当于上传一个文件名为test.txt被分为ABC三块,集群中有三台主机,分别有三个DATANODE :“123” 那么当test.txt被上传到hadoop时,A块放于1 ;B块放于2:C块放于3

          而 NAMENODE则记录:A对应1 B对应2 C对应3的映射关系

        当向haddop下载时,则先经过NAMENODE映射关系进行文件组装,然后下载到请求指定的位置

        总结:

        1、hdfs是通过分布式集群来存储文件的,且提供虚拟目录用来便捷访问

        2、文件存储到hdfs集群中去时,会被拆分为多个block

        3、文件block存放于多个datanode中

        4、hdfs文件系统中的文件与真实文件映射关系有namenode管理

        5、block存储的是我们的数据文件,按照块号存储的物理文件。

        6、每个block在集群中会出现多个副本,提高文件可靠性,和访问吞吐量。

    4、core-site.xml设置的NAMENODE节点地址信息

      slaves 设置的是DATANODE节点信息

      

     

  • 相关阅读:
    Python必须知道的异常处理
    类的内置方法(用实际代码来验证)
    类的三大特性(继承, 封装, 多态)
    面向对象编程代码详解(依赖关系,关联关系,组合关系)
    函数(匿名函数,嵌套函数,高阶函数,装饰器)
    常用模块
    对磁盘文件的操作(文件处理)
    字符编码
    常用数据类型
    编程介绍
  • 原文地址:https://www.cnblogs.com/xiaoyu1994/p/10067938.html
Copyright © 2020-2023  润新知