• HDFS


    //IO流 操作HDFS   参考之前博客IO流文章末尾hadoop IO流操作

    //上传文件

    @Test
    public void putFileToHDFS() throws IOException, InterruptedException, URISyntaxException { // 1 获取文件系统 Configuration configuration = new Configuration(); FileSystem fs = FileSystem.get(new URI("hdfs://linux121:9000"), configuration, "root"); // 2 创建输入流 FileInputStream fis = new FileInputStream(new File("e:/lagou.txt")); // 3 获取输出流 FSDataOutputStream fos = fs.create(new Path("/lagou_io.txt")); // 4 流对拷 IOUtils.copyBytes(fis, fos, configuration); // 5 关闭资源 IOUtils.closeStream(fos); IOUtils.closeStream(fis); fs.close(); }

     //下载文件

    // 文件下载
    @Test
    public void getFileFromHDFS() throws IOException, InterruptedException,
    URISyntaxException{
    // 1 获取文件系统
    Configuration configuration = new Configuration();
    FileSystem fs = FileSystem.get(new URI("hdfs://linux121:9000"),
    configuration, "root");
    // 2 获取输入流
    FSDataInputStream fis = fs.open(new Path("/lagou_io.txt"));
    // 3 获取输出流
    FileOutputStream fos = new FileOutputStream(new
    File("e:/lagou_io_copy.txt"));
    // 4 流的对拷
    IOUtils.copyBytes(fis, fos, configuration);
    // 5 关闭资源
    IOUtils.closeStream(fos);
    IOUtils.closeStream(fis);
    fs.close();
    }

    //seek 定位读取

    @Test
    public void readFileSeek2() throws IOException, InterruptedException,
    URISyntaxException{
    // 1 获取文件系统
    Configuration configuration = new Configuration();
    FileSystem fs = FileSystem.get(new URI("hdfs://linux121:9000"),
    configuration, "root");
    // 2 打开输入流,读取数据输出到控制台
    FSDataInputStream in = null;
    try{
    in= fs.open(new Path("/lagou.txt"));
    IOUtils.copyBytes(in, System.out, 4096, false);
    in.seek(0); //从头再次读取
    IOUtils.copyBytes(in, System.out, 4096, false);
    }finally {
    IOUtils.closeStream(in);
    }
    }
    //文件以及文件夹判断
    @Test
    public void isFile() throws URISyntaxException, IOException,
    InterruptedException {final FileStatus[] fileStatuses = fs.listStatus(new Path("/"));
    for (FileStatus fileStatus : fileStatuses) {
    final boolean flag = fileStatus.isFile();
    if (flag) {
    System.out.println("文件:" + fileStatus.getPath().getName());
    } else {
    System.out.println("文件夹:" + fileStatus.getPath().getName());
    }
    }
    }

    HDFS下载数据流程:

    1.客户端请求 namenode 需要下载文件,namenode检查权限和路径,返回文件的所有块信息

    2.客户端根据节点距离最近,找到最近的存储第一块数据的节点,建立连接,读取数据

    3.读取数据是以packet为单位,每个packet 64kb

    HDFS写文件流程:

    1.客户端请求namenode需要上传文件,namenod检查权限和路径

    2.客户端创建FileSystem对象,客户端对单个文件进行切块,客户端请求namenode需要上传第一块

    3.namenode 返回节点距离最近的节点,另一个机架的随机节点,第二个节点所在机架的随机节点

    4.客户端与namenode返回的第一个节点建立连接,传数据也是以packet为单位,每次传数据packet会被同步放入确认队列

    NameNode 元数据存储: 内存+磁盘

    镜像文件fsimage  +日志文件 edits

    服务器开机 将镜像文件和edits plus 加载到内存
    服务器关机 镜像文件和edits plus文件合并
    2nn 将镜像文件和edits 定期(默认一个小时)合并,或者达到100万次修改合并

    合并的流程:
    1.创建新的edits plus 文件,用于记录新的操作流程
    2.根据旧的edits plus 文件和fsimage 合并 生成新的fsimage
    3.覆盖原来的fsimage

     HDFS文件限额配置:

    1.数量限额

    hdfs dfs -mkdir -p /user/root/lagou #创建hdfs文件夹
    hdfs dfsadmin -setQuota 2 /user/root/lagou # 给该文件夹下面设置最多上传两
    个文件,上传文件,发现只能上传一个文件
    hdfs dfsadmin -clrQuota /user/root/lagou # 清除文件数量限制

    2.空间大小限额

    hdfs dfsadmin -setSpaceQuota 4k /user/root/lagou # 限制空间大小4KB
    #上传超过4Kb的文件大小上去提示文件超过限额
    hdfs dfs -put /export/softwares/xxx.tar.gz /user/root/lagou
    hdfs dfsadmin -clrSpaceQuota /user/root/lagou #清除空间限额
    #查看hdfs文件限额数量
    hdfs dfs -count -q -h /user/root/lagou

     hdfs 归档技术 解决namenode 内存资源浪费. 一个文件的元数据占用150个字节.

    归档:

    bin/hadoop archive -archiveName input.har –p
    /user/root/input /user/root/output

    查看归档:

    hadoop fs -lsr har:///user/root/output/input.har

    解压归档:

    hadoop fs -cp har:/// user/root/output/input.har/*   /user/root
  • 相关阅读:
    如何在GitHub上生成ssh公钥并用NetBeans克隆项目
    python学习笔记
    Linux命令的学习
    ubuntu16.04下安装配置深度学习环境(Ubuntu 16.04/16.10+ cuda7.5/8+cudnn4/5+caffe)
    CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构的区别
    linux 下安装eclipse和pydev插件用来开发python程序
    POJ
    Gym
    洛谷P4983 忘情 (WQS二分+斜率优化)
    HDU
  • 原文地址:https://www.cnblogs.com/wanghzh/p/14851190.html
Copyright © 2020-2023  润新知