• 大数据读书笔记(1)


    1. 数据分片与路由

       抽象模型为两级映射关系,第一级映射是key-partition映射,第二级映射是partition-machine映射。

         数据分片有哈希分片和范围分片:

      哈希分片只支持点查询,如cassandra,voltmort,membase;

      范围分片支持范围查询,google的bigtable 和ms的azure;

      同时支持两种的yahoo的pnuts。

    2.哈希分片时进行数据分片的常见手段,其中最常见的3中哈希分片方式分表是:轮询、虚拟桶、一致哈希方法

      2.1 轮询也称哈希取模方法

                   H(key)=hash(key)modK

      优点:实现简单

      缺点:缺乏灵活性,如新增或者减少一台物理机时需要重新hash

         原因:将key-partition映射和partition-machine映射合二为一了,两部分都由同一哈希函数完成,导致了机器和映射函数的紧耦合。

    2.2 虚拟桶

          

    key-partition映射采用哈希函数,partition-machine采用表格管理实现。

    2.3 一致性哈希

      分布式哈希表DHT(distributed hash table)

                      

    3. 范围分片

         首先将所有记录的主键进行排序,然后在排好序的主键空间里将记录划分成数据分片,每个数据分片存储有序的主键空间片段内的所有记录。

    数据分片在物理机的管理方式往往采用LSM树。

        

    参考文献:

    【1】http://blog.csdn.net/gdhuyufei/article/details/42101231

  • 相关阅读:
    创建部署规划
    并发容器Map之一:(jdk1.8) ConcurrentHashMap的红黑树实现分析
    CopyOnWrite容器之二:CopyOnWriteArraySet
    jQuery1.5的新特征subclass——jQuery插件机制的救赎
    getElementsByTagName
    facebook是如何管理代码的
    由addClass衍生出来的字符串去重问题
    节点排序
    Sizzle是怎样工作的
    我的模块加载系统 v3
  • 原文地址:https://www.cnblogs.com/davidwang456/p/4931197.html
Copyright © 2020-2023  润新知