• 读书笔记-Mycat权威指南-10-分片规则


    分片规则概述

    在数据切分处理中,特别是水平切分中,中间件最终要的两个处理过程就是数据的切分、数据的聚合。

    选择 合适的切分规则,至关重要,因为它决定了后续数据聚合的难易程度,甚至可以避免跨库的数据聚合处理。

    前面讲了数据切分中重要的几条原则,其中有几条是数据冗余,表分组(Table Group),

    这都是业务上规 避跨库 join 的很好的方式,但不是所有的业务场景都适合这样的规则,因此本章将讲述如何选择合适的切分规则。

    Mycat 全局表

    如果你的业务中有些数据类似于数据字典,比如配置文件的配置,常用业务的配置或者数据量不大很少变动的表。

    这些表往往不是特别大,而且大部分的业务场景都会用到,那么这种表适合于Mycat 全局表,无须对数据 进行切分,只要在所有的分片上保存一份数据即可。

    ER 分片表

    有一类业务,例如订单(order)跟订单明细(order_detail),明细表会依赖于订单,也就是说会存在表的主 从关系。

    这类似业务的切分可以抽象出合适的切分规则,比如根据用户 ID 切分,其他相关的表都依赖于用户 ID, 再或者根据订单 ID 切分,总之部分业务总会可以抽象出父子关系的表。

    这类表适用于 ER 分片表,子表的记录与 所关联的父表记录存放在同一个数据分片上,避免数据 Join 跨库操作。

    多对多关联

    有一类业务场景是 “主表 A+关系表+主表 B”,举例来说就是商户会员+订单+商户,对应这类业务,如何 切分?

    从会员的角度,如果需要查询会员购买的订单,那按照会员进行切分即可。

    但是如果要查询商户当天售出的订单,那又需要按照商户做切分,可是如果既要按照会员又要按照商户切分,几乎是无法实现,这类业务如何选 择切分规则非常难。

    目前还暂时无法很好支持这种模式下的 3 个表之间的关联。目前总的原则是需要从业务角度 来看,关系表更偏向哪个表,即“A 的关系”还是“B 的关系”,来决定关系表跟从那个方向存储。

    未来 Mycat 版本中将考虑将中间表进行双向复制,以实现从 A-关系表 以及 B-关系表的双向关联查询如下图所示:

    Mycat 常用的分片规则 

    分片枚举

    通过在配置文件中配置可能的枚举 id,自己配置分片,本规则适用于特定的场景,比如有些业务需要按照省 份或区县来做保存,而全国省份区县固定的,这类业务使用本条规则。

    固定分片 hash 算法

    本条规则类似于十进制的求模运算,区别在于是二进制的操作,是取 id 的二进制低 10 位,即 id 二进制 &1111111111。

    此算法的优点在于如果按照 10 进制取模运算,在连续插入 1-10 时候 1-10 会被分到 1-10 个分片,增 大了插入的事务控制难度,而此算法根据二进制则可能会分到连续的分片,减少插入事务事务控制难度。

    范围约定

    此分片适用于,提前规划好分片字段某个范围属于哪个分片, start <= range <= end. range start-end ,data node index K=1000,M=10000。

    取模

    此规则为对分片字段求摸运算。

    按日期(天)分片

    此规则为按天分片。

    取模范围约束

    此种规则是取模运算与范围约束的结合,主要为了后续数据迁移做准备,即可以自主决定取模后数据的节点分布。

    截取数字做 hash 求模范围约束

    此种规则类似于取模范围约束,此规则支持数据符号字母取模。

    应用指定

    此规则是在运行阶段有应用自主决定路由到那个分片。

    截取数字 hash 解析

    此规则是截取字符串中的 int 数值 hash 分片。

    一致性 hash

    一致性 hash 预算有效解决了分布式数据的扩容问题。

    按单月小时拆分

    此规则是单月内按照小时拆分,最小粒度是小时,可以一天最多 24 个分片,最少 1 个分片,一个月完后下月 从头开始循环。 每个月月尾,需要手工清理数据。

    范围求模分片

    先进行范围分片计算出分片组,组内再求模 优点可以避免扩容时的数据迁移,又可以一定程度上避免范围分片的热点问题。

    综合了范围分片和求模分片的优点,分片组内使用求模可以保证组内数据比较均匀,分片组之间是范围分片 可以兼顾范围查询。

    最好事先规划好分片的数量,数据扩容时按分片组扩容,则原有分片组的数据不需要迁移。由于分片组内数 据比较均匀,所以分片组内可以避免热点数据问题。

    日期范围 hash 分片

    思想与范围求模一致,当由于日期在取模会有数据集中问题,所以改成 hash 方法。

    先根据日期分组,再根据时间 hash 使得短期内数据分布的更均匀 优点可以避免扩容时的数据迁移,又可以一定程度上避免范围分片的热点问题。

    冷热数据分片

    根据日期查询日志数据 冷热数据分布 ,最近 n 个月的到实时交易库查询,超过 n 个月的按照 m 天分片。

    自然月分片

    按月份列分区 ,每个自然月一个分片,格式 between 操作解析的范例

    权限控制

    目前 Mycat 对于中间件的连接控制并没有做太复杂的控制,目前只做了中间件逻辑库级别的读写权限控制。

  • 相关阅读:
    团队项目-选题报告
    第一次结对编程作业
    第一次个人编程作业
    第一次软工作业
    antd form表单数组对象格式
    antd form表单验证失去焦点时验证和重置验证状态
    fetch请求
    typescript类装饰器
    typescript泛型
    浮点数问题
  • 原文地址:https://www.cnblogs.com/shizheyangde/p/7435033.html
Copyright © 2020-2023  润新知