• hbase实践之Rowkey设计之道


    笔者从一开始接触hbase就在思考rowkey设计,希望rowkey设计得好,能够支持查询的需求。使用hbase一段时间后,再去总结一些hbase的设计方法,无外乎以下几种:

    • reverse
    • salt
    • hash

    本质上都是避免热点问题。那么如何根据查询场景设计rowkey?rowkey设计之道是什么?

    rowkey设计之道

    image

    hbase通过分治策略将数据分散到1-N个Region中,以满足业务的读写需求,合理的分配是关键,这就涉及rowkey的设计。

    image

    image
    抛开缓存,只从rowke的角度来考虑读写,如果追求读取高效,则希望查询时的数据是相对集中的,扫描范围比较小;如果写入比较大,更多的是靠集群的性能来支撑,对负载均衡要求比较高,也就是要最大化发挥集群的性能。

    image
    rowkey的设计,主要是根据查询的需求来设计。

    1. 收集各种查询需求与时延要求
    2. 解决最主要的矛盾:最高频查询场景是什么?
    3. 其他的查询场景和频度?

    接下来进一步细化:如各种查询中是否多维查询?等等

    image
    梳理数据的特点,可以将理论与实践更好的结合。如果不知道数据的分布特点,仅仅根据字段的情况来设计rowkey,会出现这种情况:

    我们根据省份这个字段进行hash,将数据分散到不同的region,但问题是我们的用户很可能就是集中在某几个省份,像江浙沪这种经济发达的大省,这种rowkey的设计,就是忽略了数据分布的特点,造成了热点问题。其他忽略数据分布的特点,还容易造成数据分析过程中的数据倾斜问题。

    所以在rowkey设计中要注意数据的分布特点,同时考虑数据的生命周期。

    rowkey索引设计

    二级索引

    image

    组合索引

    image

    image

    rowkey索引设计,是rowkey设计之术。

    小结

    rowkey设计之术,只见树木不见森林,很容易让人迷茫。从rowkey设计之道出发,让我们不再徘徊。

    参考文献

  • 相关阅读:
    图床_OpenStack-镜像服务
    图床_OpenStack-认证服务
    图床_OpenStack-基础环境
    #linux包之tcpdump之tcpdump命令
    利用OpenCms9提供的模块创建新站点
    Cocos2d-x3.0下实现循环列表
    Modbus读写模拟量寄存器具体解释
    C++ 实践总结
    spring Quartz基于配置文件和注解的实现
    EEPLAT学习
  • 原文地址:https://www.cnblogs.com/small-k/p/10016531.html
Copyright © 2020-2023  润新知