• dremio 分布式存储以及云存储缓存简单说明


    实际上以前我也简单介绍过,以下主要是对于这些有一些整体的介绍

    分布式存储

    paths.dist 配置属性,包含了加速,表,job 结果,上传以及下载的数据,支持包含了共享存储(nas,hdfs,以及对象存储)
    对于对象存储实际上还是hdfs,只是处理上配置不一样

     
    paths: {
      ...
      dist: "dremioS3:///<bucket_name>/<folder1>/<folder2>"
    }
     
     

    同时我们需要配置core-site.xml ,具体就是s3a 的一些参数了,具体参考官方文档
    注意默认fs.s3a.buffer.dir 配置默认为/tmp/hadoop-dremio/s3a ,建议修改,然后重启服务(主要是执行节点)

    云存储缓存

    对于一些数据源,是支持云存储缓存的(s3,adls,azure,hdfs。。。)实际上从名字名并不是数据放到远端,而且我们将云端或者
    一些延迟比较大的存储数据缓存到本地,实现数据的加速(特别类似现有的juicefs 以及alluxio)
    对于这些我们可以在添加数据源的时候配置


    设置缓存路径以及目录
    需要注意的项

    • 数据路径,实际上就是存储缓存数据的牡蛎
    • 缓存目录,存储关联数据的挂载点,注意如果路径改变以及执行器重启缓存失效
    • 配置
      需要配置executor.cache.path.db以及executor.cache.path.fs (推荐使用ssd 以及nvme )
      一个参考配置
     
    paths: {
      # the local path for dremio to store data.
      local: "/mnt/resource/dremio/data"
     
      # the distributed path Dremio data including job results, downloads, uploads, etc
      #dist: "pdfs://"${paths.local}"/pdfs"
    }
     
    services: {
      coordinator.enabled: false,
      coordinator.master.enabled: false,
      executor.enabled: true
      executor.cache.path.db : "/mnt/cachemanagerdisk/db",
      executor.cache.path.fs : [ "/mnt/cachemanagerdisk/dir1","/mnt/cachemanagerdisk/dir2","/mnt/cachemanagerdisk/dir3","/mnt/cachemanagerdisk/dir4"]
    }
    zookeeper: "lak-azure-perf:"${services.coordinator.master.embedded-zookeeper.port}
    • 反射数据缓存
      可以通过dist.caching.enabled以及reflection.cloud.cache.enabled解决,注意需要重启集群
    • 最佳实践
      使用ssd 以及nvme 为了更好的性能,对于不常用的会进行清理,对于cache 添加额外的存储
      如果需要移除本地数据的缓存:数据源移除cache 配置,删除缓存管理数据以及文件夹

    说明

    分布式存储解决的是数据共享的问题,云储存缓存解决的是对于延迟较大存储的加速,实现数据本地化,加速查询处理

    参考资料

    https://docs.dremio.com/software/deployment/dist-store-config/
    https://docs.dremio.com/software/deployment/cloud-cache-config/

  • 相关阅读:
    [python工具][1]sublime安装与配置
    [办公软件][1]cmder安装
    [持续集成学习篇]【1】[jenkins安装与配置]
    [python篇] [伯乐在线][1]永远别写for循环
    [python学习篇] uiautomator xiaocong
    SharePoint 2010中重置windows 活动目录(AD)域用户密码的WebPart(免费下载)
    使用SharePoint 2010的母版页
    SharePoint 2013 入门教程--系列文章
    自定义 SharePoint 2010 快速启动栏和顶部链接栏
    SharePoint2010 自定义代码登录方法
  • 原文地址:https://www.cnblogs.com/rongfengliang/p/16228551.html
Copyright © 2020-2023  润新知