• 大数据笔记(四)——操作HDFS


    一.Web Console:端口50070

    二.HDFS的命令行操作

    (一)普通操作命令  

    HDFS 操作命令帮助信息: hdfs dfs + Enter键

    常见命令

    1.  -mkdir 

    • 在HDFS上创建目录:hdfs dfs -mkdir /aaa
    • 如果父目录不存在,使用 -p 命令先创建父目录:

    2. -ls /

      查看hdfs文件系统根目录下的目录和文件:

    3.-ls -R /

      查看所有目录和文件:

    4.-put

      上传数据:将本地Linux文件data.txt上传到HDFS的aaa目录下

     -copyFromLocal 上传数据,类似-put

    -moveFromLocal 上传数据,类似-put,相当于ctrl+x

    5.-get 下载数据(刚才上传数据时已经有data.txt,所以要把Linux目录下的data.txt先删除)

    6.-rm: 删除目录

       -rmr: 删除目录,包括子目录

                hdfs dfs -rmr /bbb

    7. -getmerge:把某个目录下的文件,合并后再下载

    8.-cp:拷贝   hdfs dfs -cp /input/data.txt /input/data2.txt

    9.-mv:移动   hdfs dfs -cp /input/data.txt /aaa/a.txt

    10.-count 统计hdfs对应路径下的目录个数,文件个数,文件总计大小:hdfs dfs -count /students

     

    11.-du 显示hdfs对应路径下每个文件夹和目录的大小 hdfs dfs -du /students

     

    12.-cat 查看文本的内容 hdfs dfs -cat /input/data.txt

    13.balancer:平衡操作 如果管理员发现某些DataNode上保存数据过多,某些过少,就可以采取此操作

     (二)管理命令:hdfs dfsadmin

    举例:

    1.-report  打印hdfs的报告 hdfs dfsadmin -report

    2.-safemode:安全模式(安全模式下对hdfs只能进行只读操作)

    三.JavaAPI

    通过HDFS提供的JavaAPI,我们可以完成以下的功能:

    (一)在HDFS上创建目录

     (二)写入数据(上传文件)

    import java.io.FileInputStream;
    import java.io.IOException;
    import java.io.InputStream;
    import java.io.OutputStream;
    
    import org.apache.hadoop.conf.Configuration;
    import org.apache.hadoop.fs.FileSystem;
    import org.apache.hadoop.fs.Path;
    import org.junit.Test;
    
    import com.jcraft.jsch.Buffer;
    
    public class TestUpload {
        
        @Test
        public void testUpload() throws IOException{
            System.setProperty("HADOOP_USER_NAME", "root");
            //NameNode   core.site.xml
            Configuration conf = new Configuration(); 
            conf.set("fs.defaultFS", "hdfs://192.168.153.11:9000");
            
            //构造一个输入流 <---HDFS
            FileSystem fs = FileSystem.get(conf);
            
            InputStream in = new FileInputStream("D:\temp\hadoop-2.7.3.tar.gz");
            
            //构造一个输出流------> HDFS
            OutputStream out = fs.create(new Path("/tools/hadoop-2.7.3.tar.gz"));
                    
            
            byte[] buffer = new byte[1024];
            int len = 0;
            
            while ((len=in.read(buffer)) > 0) {
                out.write(buffer, 0, len);
            }
            
            out.flush();
            
            in.close();
            out.close();
            
        }
    }

     (三)通过 FileSystem API 读取数据(下载文件)

     (四)查看目录及文件信息

     (五)查找某个文件在HDFS集群的位置

      (六)删除数据

      (七)获取HDFS集群上所有数据节点信息

  • 相关阅读:
    界面控件Telerik UI for WPF R3 2021 全新的高对比度主题
    WPF界面控件DevExpress WPF v21.2 不止支持Windows 11
    资源分享|DevExpress v21.2帮助文档下载(CHM版)
    DevExpress WinForm MVVM数据和属性绑定指南(Part 3)
    VS插件CodeRush 全新发布v21.2.4——支持Visual Studio 2022
    New!DevExpress WPF v21.2最新版本系统环境配置要求
    「B/S端开发」DevExtreme初级入门教程(React篇) 状态管理
    WPF界面工具Telerik UI for WPF入门级教程 设置一个主题(一)
    New!DevExpress WinForms v21.2最新版本系统环境配置要求
    一篇文章带你看DevExpress WPF如何支持Windows触控功能
  • 原文地址:https://www.cnblogs.com/lingluo2017/p/8471262.html
Copyright © 2020-2023  润新知